Type to search

Noticias

Aprovechar la confiabilidad para la investigación en neurociencia

Share


La comunidad de neuroimagen ha dado grandes pasos hacia la recopilación de conjuntos de datos de neuroimagen a gran escala, que, hasta la última década, parecían fuera de su alcance. Entre las iniciativas centradas en la agregación y el intercambio abierto de conjuntos de datos recopilados previamente y las iniciativas de generación de datos de novo encargadas de la creación de recursos de la comunidad, decenas de miles de conjuntos de datos ahora están disponibles en línea. Estos abarcan una variedad de estados y trastornos del desarrollo, y pronto habrá muchos más disponibles.

Dichas fuentes de datos abiertas permiten a los investigadores aumentar la escala de sus estudios, aplicar diversas estrategias de aprendizaje (por ejemplo, inteligencia artificial) con ambiciones de descubrimiento de biomarcadores basados ​​en el cerebro y abordar preguntas sobre la reproducibilidad de los hallazgos, todo a un ritmo eso no tiene precedentes en imágenes. Sin embargo, según los hallazgos de trabajos recientes, pocos de los conjuntos de datos generados hasta la fecha contienen datos suficientes por sujeto para lograr medidas altamente confiables de conectividad cerebral. Un nuevo examen de esta deficiencia crítica se centra en el campo de la neuroimagen, pero las implicaciones de su argumento y los principios estadísticos discutidos son ampliamente aplicables.

Alcance del problema


La preocupación es simple: los investigadores están acumulando conjuntos de datos a gran escala mediante el intercambio de datos y las iniciativas coordinadas de generación de datos, pero no logran optimizar sus recopilaciones de datos para obtener confiabilidades relevantes (por ejemplo, prueba-prueba, entre evaluadores, etc.). Pueden estar recolectando grandes cantidades de datos subóptimos en lugar de pequeñas cantidades de datos de mayor calidad, una compensación que no es un buen augurio para el campo, particularmente cuando se trata de hacer inferencias y predicciones a nivel individual. El nuevo documento afirma que este paso en falso se puede evitar haciendo evaluaciones críticas de confiabilidad por adelantado.

La compensación que ocurre en la neuroimagen refleja una tendencia general en la neurociencia. El poder estadístico es fundamental para los estudios de las diferencias individuales, ya que determina la capacidad de detectar efectos de interés. Si bien el tamaño de la muestra se reconoce fácilmente como un determinante clave del poder estadístico, las confiabilidades de medición se consideran con menos frecuencia y, en el mejor de los casos, solo se consideran indirectamente al estimar los tamaños de muestra requeridos. Esto es lamentable, ya que la teoría estadística dicta que la fiabilidad coloca un límite superior en el tamaño máximo del efecto detectable.

La interacción entre la fiabilidad, el tamaño de la muestra y el tamaño del efecto en las determinaciones del poder estadístico se subestima comúnmente en el campo. Para facilitar una discusión más directa de estos factores, la Fig. 1 muestra el impacto de la confiabilidad de la medición y el tamaño del efecto en los tamaños de muestra requeridos para lograr niveles deseables de poder estadístico (por ejemplo, 80 por ciento); estas relaciones no dependen en gran medida de la forma específica de inferencia estadística empleada (por ejemplo, prueba t de dos muestras, pruebas t pareadas, ANOVA de tres niveles). Las estimaciones se generaron usando el paquete pwr en R y son altamente congruentes con los resultados de las simulaciones de Monte Carlo5 5. Con respecto a la neurociencia, donde la mayoría de los hallazgos informan tamaños de efectos que varían de moderados a moderados6 6, la figura hace evidente el hecho de que aumentar la confiabilidad puede reducir drásticamente los requisitos de tamaño de muestra (y por lo tanto el costo) para lograr diseños estadísticamente apropiados.

En neuroimagen, la fiabilidad de las medidas empleadas en los experimentos puede variar sustancialmente. En la resonancia magnética, se sabe que las medidas morfológicas tienen la mayor confiabilidad, y la mayoría de los vóxeles en el cerebro exhiben confiabilidades medidas como correlación intraclase> 0.8 para medidas centrales (por ejemplo, volumen, grosor cortical y área de superficie). Para los enfoques de MRI funcional (fMRI), la confiabilidad tiende a ser más baja y más variable, dependiendo en gran medida del diseño experimental, la naturaleza de la medida empleada y, lo más importante, la cantidad de datos obtenidos (por ejemplo, para fMRI básica en estado de reposo) medidas, la correlación media dentro de la clase obtenida a través de vóxeles puede aumentar de dos a cuatro veces a medida que uno aumenta de cinco minutos a 30 minutos de datos). La variabilidad interindividual limitada puede ser un contribuyente significativo a los hallazgos de baja confiabilidad para fMRI, ya que su magnitud en relación con la variación dentro del sujeto es un determinante primario de confiabilidad. Tal preocupación se ha planteado para la tarea fMRI, que toma prestados directamente diseños de tareas conductuales de la literatura psicológica.

Implicaciones potenciales


Desde una perspectiva estadística, los riesgos de que las muestras de baja potencia produzcan falsos negativos aumentados y tamaños de efectos inflados artificialmente (es decir, el sesgo de 'maldición del ganador') son bien conocidos. Más recientemente, también se ha establecido el potencial de muestras con potencia insuficiente para generar falsos positivos. Todos estos fenómenos reducen la reproducibilidad de los hallazgos en los estudios, un desafío que otros campos (por ejemplo, la genética) han trabajado durante mucho tiempo para superar. En el contexto de la neuroimagen o el mapeo del cerebro humano, una preocupación adicional es que los investigadores pueden estar predispuestos a sobrevalorar aquellas áreas del cerebro para las cuales la confiabilidad de la medición es mayor. Por ejemplo, las redes por defecto y frontoparietales reciben más atención en los estudios clínicos y cognitivos de neurociencia de las diferencias individuales y grupales. Esto podría ser apropiado, pero también podría reflejar las mayores confiabilidades de estas redes.

Soluciones

El objetivo es llamar más la atención sobre la necesidad de evaluar y optimizar la fiabilidad, que generalmente se subestima en la investigación en neurociencia. Ya sea que se enfoque en imágenes, electrofisiología, marcadores neuroinflamatorios, microbiomías, paradigmas de neurociencia cognitiva o dispositivos en persona, es esencial que los científicos consideren la confiabilidad de la medición y sus determinantes.

Para la neuroimagen basada en IRM, un tema repetido en las diversas modalidades (por ejemplo, difusión, funcional, morfometría) es que los datos de mayor calidad requieren más tiempo para recopilarse, ya sea debido a una mayor resolución o repeticiones. Como tal, los investigadores se beneficiarían de evaluar los requisitos mínimos de datos para lograr mediciones adecuadamente confiables antes de avanzar. Hay un número creciente de recursos disponibles para tales evaluaciones de confiabilidad (por ejemplo, Consortium for Reliability and Reproducibility, MyConnectome Project, Healthy Brain Network Serial Scanning Initiative, Midnight Scan Club, Yale Test-Retest Dataset, PRIMatE Data Exchange). Es importante tener en cuenta que estos recursos se centran principalmente en la confiabilidad test-retest, dejando otras formas de confiabilidad menos exploradas (por ejemplo, confiabilidad interestatal, confiabilidad entre escáneres; vea los esfuerzos recientes de un tema de investigación sobre confiabilidad y reproducibilidad en conectomía funcional )

Es importante destacar que la confiabilidad diferirá según cómo se procese un conjunto de datos de imágenes y qué características del cerebro se seleccionen. Han surgido una gran cantidad de estrategias de procesamiento y características cerebrales, pero rara vez se comparan entre sí para identificar las más adecuadas para estudiar las diferencias individuales. En este sentido, los esfuerzos para optimizar las estrategias analíticas para la confiabilidad son esenciales, ya que permiten disminuir los datos mínimos requeridos por individuo para lograr un nivel objetivo de confiabilidad. Esto es de vital importancia para las aplicaciones en poblaciones en desarrollo, envejecidas y clínicas, donde la tolerancia del entorno del escáner limita la capacidad de recopilar conjuntos de datos que requieren mucho tiempo. Un excelente ejemplo de cuantificación y optimización de la fiabilidad proviene de la conectomía funcional. Luego de informes convergentes de que se necesitan al menos 20-30 minutos de datos para obtener la confiabilidad de prueba-prueba para las medidas tradicionales de conectividad por pares, trabajos recientes han sugerido la factibilidad de combinar diferentes escaneos de fMRI en una sesión (por ejemplo, descanso, película, tarea ) para compensar el diferencial al calcular medidas confiables de conectividad funcional.

Los neurocientíficos cognitivos y clínicos deben ser conscientes de que muchos paradigmas cognitivos utilizados dentro y fuera del escáner nunca han sido sometidos a evaluaciones adecuadas de confiabilidad, y la calidad de las evaluaciones de confiabilidad para cuestionarios (incluso de propiedad) puede variar sustancialmente.


Como tal, la confiabilidad de los datos que se usan en el lado del fenotipado a menudo es desconocida en la ecuación y puede limitar la utilidad de incluso las medidas de imagen más óptimas, una realidad que también afecta a otros campos (por ejemplo, la genética) y compromete inherentemente esfuerzos Aunque no siempre es atractivo, es necesario un mayor enfoque en la cuantificación y publicación de los requisitos mínimos de datos y su confiabilidad para las evaluaciones fenotípicas, al igual que la exploración de enfoques novedosos para la captura de datos que pueden aumentar la confiabilidad (por ejemplo, la adquisición basada en sensores a través de dispositivos portátiles) y muestreo longitudinal a través de aplicaciones de teléfonos inteligentes).

Finalmente, y quizás lo más crítico, hay una marcada diversidad en cómo se usa la palabra 'confiabilidad', y están apareciendo un número creciente de métricas de confiabilidad separadas. Este fenómeno es reconocido en una publicación reciente por un grupo de trabajo de la Organización para el Mapeo del Cerebro Humano encargado de generar estándares para mejorar la reproducibilidad. Los investigadores sugieren que sería mejor construir directamente sobre la terminología y las medidas bien establecidas en otras publicaciones (por ejemplo, estadística, medicina) en lugar de comenzar de nuevo. En particular, quieren evitar confusiones en la terminología, particularmente aquellas entre 'confiabilidad' y 'validez', dos conceptos relacionados pero distintos que comúnmente se usan indistintamente en la literatura.

Una confusión para evitar

Es crucial que los investigadores reconozcan la brecha entre confiabilidad y validez, ya que una medida altamente confiable puede ser impulsada por un artefacto en lugar de una señal significativa (es decir, válida). Como se ilustra en la Fig. 2, este punto se vuelve obvio cuando se consideran las diferentes fuentes de variación asociadas con la medición de las diferencias individuales. Primero, está la porción de la varianza medida entre individuos que es el rasgo de interés (Vt) (por ejemplo, diferencias entre sujetos en el volumen de materia gris dentro del giro frontal inferior izquierdo). En segundo lugar, existe una variación relacionada con los contaminantes no deseados en la medición que puede variar sistemáticamente entre individuos (Vc) (por ejemplo, diferencias entre sujetos en el movimiento de la cabeza). Finalmente, hay ruido aleatorio (Vr), que comúnmente se trata como variación dentro del sujeto. La confiabilidad es la proporción de la varianza total que se puede atribuir a la varianza sistemática entre individuos (incluidos Vt y Vc; ver ecuación 1); en contraste, la validez es la proporción de la varianza total que se puede atribuir específicamente al rasgo de interés solo (Vt; ver ecuación 2).

  • Fiabilidad = (Vt + Vc) / (Vt + Vc + Vr) (1)
  • Validez = Vt / (Vt + Vc + Vr) (2)

Como se discutió en el trabajo anterior, este marco indica que una medida no puede ser más válida que confiable (es decir, la confiabilidad proporciona un límite superior para la validez). Entonces, si bien es posible tener una medición que sea suficientemente confiable y completamente inválida (por ejemplo, un artefacto confiable), es imposible tener una medición con baja confiabilidad que tenga una alta validez.

Un desafío específico para los neurocientíficos es que, si bien la fiabilidad puede cuantificarse fácilmente, la validez no puede, ya que no es posible medir directamente Vt. Como tal, se utilizan varias formas indirectas de validez, que difieren en la fuerza de la evidencia requerida. En un extremo está la validez de criterio, que compara la medida de interés con una medida independiente designada como criterio o medida 'estándar de oro' (por ejemplo, comparación de diferencias individuales en tractos identificados por imágenes de difusión con hallazgos histológicos post mortem, o comparación de diferencias en patrones de conectividad basados ​​en fMRI para medidas intracraneales de acoplamiento neural o magnetoencefalografía).

En el otro extremo está la validez aparente, en la cual los hallazgos son simplemente consistentes con las expectativas de 'sentido común' (por ejemplo, ¿mi patrón de conectividad funcional se parece al sistema motor?). Intermedios a estos son conceptos como la validez de constructo, que prueban si una medida varía como se esperaría si está indexando el constructo deseado (es decir, validez convergente) y no otros (es decir, validez divergente) (por ejemplo, hacen diferencias en la conectividad entre los individuos varían con el estado de desarrollo y no con el movimiento de la cabeza u otros artefactos sistemáticos?).

Una herramienta cada vez más común en la comunidad de imágenes es la validez predictiva, donde los investigadores prueban la capacidad de hacer predicciones con respecto a una construcción de interés (por ejemplo, ¿las diferencias en la red postuladas para apoyar la inteligencia predicen diferencias en el coeficiente intelectual?). Como se puede ver en los ejemplos proporcionados, los diferentes paradigmas experimentales ofrecen diferentes niveles de validez, y los más complejos y desafiantes ofrecen las formas más altas. Desde una perspectiva práctica, lo que los investigadores pueden hacer es hacer los mejores esfuerzos para medir y eliminar las señales de artefactos como el movimiento de la cabeza y trabajar para establecer la forma más alta de validez posible utilizando los métodos disponibles.

A medida que los neurocientíficos avanzan en sus esfuerzos por ofrecer herramientas clínicamente útiles, es esencial que las evaluaciones y optimizaciones para la confiabilidad se conviertan en una práctica común. Esto requerirá mejores prácticas de investigación entre los investigadores, así como el apoyo de las agencias de financiación en la generación de recursos comunitarios abiertos sobre los cuales se puedan cuantificar estas propiedades esenciales.



Más información: Xi-Nian Zuo et al, Aprovechamiento de la confiabilidad para la investigación en neurociencia, Naturaleza Comportamiento Humano (2019). DOI: 10.1038 / s41562-019-0655-x

El código está disponible en GitHub en github.com/TingsterX/power__re… iability_sample_size

Tags:

You Might also Like

Leave a Reply