Report 2956

La loca carrera se aceleró tan rápido como la pandemia. Los investigadores se apresuraron a ver si la inteligencia artificial podía desentrañar los muchos secretos de Covid-19, y por una buena razón. Había escasez de pruebas y tratamientos para un número cada vez mayor de pacientes. Tal vez la IA podría detectar la enfermedad antes en las imágenes de los pulmones y predecir qué pacientes tenían más probabilidades de enfermarse gravemente.

Cientos de estudios inundaron los servidores de preimpresión y las revistas médicas que afirmaban demostrar la capacidad de la IA para realizar esas tareas con gran precisión. No fue hasta muchos meses después que un equipo de investigación de la Universidad de Cambridge en Inglaterra comenzó a examinar los modelos (más de 400 en total) y llegó a una [conclusión muy diferente] (https://www.nature.com/articles /s42256-021-00307-0): Cada uno de ellos tenía fallas fatales.

"Fue una verdadera revelación y bastante sorprendente la cantidad de fallas metodológicas que ha habido", dijo Ian Selby, radiólogo y miembro del equipo de investigación. La revisión encontró que los algoritmos a menudo se entrenaron en muestras de datos pequeñas y de un solo origen con diversidad limitada; algunos incluso reutilizaron los mismos datos para el entrenamiento y las pruebas, un pecado capital que puede conducir a un rendimiento engañosamente impresionante. Selby, quien cree en el potencial a largo plazo de la IA, dijo que la omnipresencia de los errores y las ambigüedades dificulta tener fe en las afirmaciones publicadas.

"Terminas con esta área de investigación bastante contaminada", dijo. "Lees muchos periódicos y tu instinto natural es no querer confiar en ellos".

Los problemas no se limitan a la investigación de Covid-19. El aprendizaje automático, un subconjunto de la IA que genera miles de millones de dólares en inversiones en el campo de la medicina, se enfrenta a una crisis de credibilidad. Una lista cada vez mayor de documentos se basa en datos limitados o de baja calidad, no especifican su enfoque de capacitación y métodos estadísticos, y no prueban si funcionarán para personas de diferentes razas, géneros, edades y geografías.

Estas deficiencias surgen de una serie de desafíos sistemáticos en la investigación del aprendizaje automático. La competencia intensa da como resultado plazos de publicación más ajustados, y es posible que los artículos preliminares muy citados no siempre se sometan a una revisión rigurosa por pares. En algunos casos, como sucedió con los modelos Covid-19, la demanda de soluciones rápidas también puede limitar el rigor de los experimentos.

Con mucho, el problema más grande, y el más complicado de resolver, apunta al Catch-22 del aprendizaje automático: hay pocos conjuntos de datos grandes y diversos para entrenar y validar una nueva herramienta, y muchos de los que existen se mantienen confidenciales por motivos legales o legales. motivos comerciales. Pero eso significa que los investigadores externos no tienen datos para probar las afirmaciones de un artículo o compararlo con un trabajo similar, un paso clave para examinar cualquier investigación científica.

La falla al probar modelos de IA en datos de diferentes fuentes, un proceso conocido como validación externa, es común en estudios publicados en servidores de preimpresión y en revistas médicas líderes. A menudo da como resultado un algoritmo que parece muy preciso en un estudio, pero que no funciona al mismo nivel cuando se expone a las variables del mundo real, como diferentes tipos de pacientes o exploraciones de imágenes obtenidas con diferentes dispositivos.

"Si los resultados de rendimiento no se reproducen en la atención clínica al estándar que se usó durante [un estudio], corremos el riesgo de aprobar algoritmos en los que no podemos confiar", dijo Matthew McDermott, investigador del Instituto de Tecnología de Massachusetts, quien colaboró -escribió un artículo reciente sobre estos problemas. "En realidad, pueden terminar empeorando la atención al paciente".

Es posible que esto ya esté sucediendo con una amplia gama de productos que se utilizan para ayudar a tratar enfermedades graves, como enfermedades cardíacas y cáncer. Una investigación reciente de STAT encontró que solo 73 de 161 productos de IA aprobados por la Administración Federal de Alimentos y Medicamentos divulgaron públicamente la cantidad de datos utilizados para validar el producto, y solo siete informaron la composición racial de sus poblaciones de estudio. Incluso las fuentes de los datos casi nunca se dieron.

Esos hallazgos se hicieron eco en un [artículo de investigadores de Stanford](https://www.nature.com/articles/s41591-021-01312-x.epdf?sharing_token=8BNOnt1UUOf0iPsJ9yU0J9RgN0jAjWel9jnR3ZoTv0M6PlZXWQqbgCrdZtSbNOnPDQlhZJ-fPz8 LJ4JqCoxGYshqBh62049hIhMSEfJaE7pKaceG00AD1FUBHLZ5YShokEBQWoF6kBbZitEELPDqWu-9esaFE8DcbdQ1QAgRChw%3D) que destacó la falta de estudios prospectivos, o estudios que examinan los resultados futuros, realizados en productos de IA de mayor riesgo aprobados por la FDA. También notaron que la mayoría de los dispositivos de IA se evaluaron en una pequeña cantidad de sitios y que solo una pequeña fracción informó cómo se desempeñó la IA en diferentes grupos demográficos.

"Nos gustaría que la IA funcione de manera responsable y confiable para diferentes pacientes en diferentes hospitales", dijo James Zou, profesor de ciencia de datos biomédicos en Stanford y coautor del artículo. "Por lo tanto, es especialmente importante poder evaluar y probar el algoritmo en estos diversos tipos de datos".

La revisión realizada por la Universidad de Cambridge encontró que muchos estudios no solo carecían de validación externa, sino que también se olvidaron de especificar las fuentes de datos utilizadas o los detalles sobre cómo se entrenaron sus modelos de IA. Todos menos 62 de los más de 400 documentos no pasaron una evaluación de calidad inicial basada en esas omisiones y otros errores.

Incluso aquellos que sobrevivieron a la evaluación inicial sufrieron múltiples deficiencias: se descubrió que 55 de esos 62 artículos tenían un alto riesgo de sesgo debido a una variedad de problemas, incluida la dependencia de conjuntos de datos públicos donde muchas imágenes sospechosas de representar Covid-19 no están confirmadas. ser casos positivos. Algunos modelos de IA entrenados para diagnosticar casos adultos de Covid-19 en radiografías de tórax se probaron en imágenes de pacientes pediátricos con neumonía.

"Las [imágenes pediátricas] a menudo eran de niños menores de 5 años, que tienen diferencias anatómicas masivas en comparación con los adultos, por lo que no sorprende en absoluto que estos modelos hayan tenido muy buenos resultados al distinguir a los pacientes covid-19 de los que no lo son", dijo Selby. . "Los pacientes se veían completamente diferentes en la radiografía de tórax, independientemente del estado de Covid".

Los investigadores encontraron fallas significativas en los artículos publicados en servidores de preimpresión, así como en los publicados en revistas que imponen un mayor escrutinio a través de la revisión por pares. El proceso de revisión por pares puede fallar por una variedad de razones, incluidos los revisores que carecen de un conocimiento profundo sobre la metodología de aprendizaje automático o el sesgo hacia instituciones o empresas destacadas que da como resultado revisiones superficiales de sus artículos. Un problema mayor es la falta de estándares de consenso para evaluar la investigación del aprendizaje automático en medicina, aunque eso está comenzando a cambiar. Los investigadores de la Universidad de Cambridge utilizaron una lista de verificación de metodología conocida como CLAIM, que establece un conjunto común de criterios para autores y revisores.

"Intentamos en nuestro artículo señalar la necesidad de las listas de verificación", dijo Selby. "Hace que la gente se pregunte: '¿Hemos abordado este problema? ¿Hemos pensado en eso?' Es posible que se den cuenta de que podrían construir un modelo mejor con un poco más de pensamiento y tiempo".

Entre los artículos que Selby y sus colegas encontraron que presentaban un alto riesgo de sesgo, había uno publicado en Nature de investigadores de la Icahn School of Medicina en Mount Sinai en Nueva York.

El documento encontró que un modelo de IA para diagnosticar Covid-19 en tomografías computarizadas de tórax funcionó bien en una medida de precisión común (área bajo la curva de 0,92) e igualó el rendimiento de un radiólogo torácico senior. Un [comunicado de prensa](https://www.mountsinai.org/about/newsroom/2020/mount-sinai-first-in-us-to-use-artificial-intelligence-to-analyze-coronavirus-covid19-patients- pr) que acompañó el lanzamiento del documento dijo que la herramienta "podría ayudar a los hospitales de todo el mundo a detectar rápidamente el virus, aislar a los pacientes y evitar que se propague durante esta pandemia".

Pero los investigadores de la Universidad de Cambridge señalaron el artículo por un alto riesgo de sesgo debido a su pequeño tamaño de muestra de 424 pacientes con covid-positivo repartidos en conjuntos de datos utilizados para entrenar, ajustar y probar la IA. Los datos se obtuvieron de 18 centros médicos en China, pero no estaba claro qué centros proporcionaron los datos sobre los casos positivos y negativos, lo que plantea la posibilidad de que la IA simplemente pueda estar detectando diferencias en los métodos y equipos de escaneo, en lugar de en la fisiología de los pacientes. Los investigadores de Cambridge también notaron que el rendimiento no se probó en un conjunto de datos independiente para verificar su capacidad para reconocer de manera confiable la enfermedad en diferentes grupos de pacientes.

El documento reconoció el pequeño tamaño de la muestra del estudio y la necesidad de datos adicionales para probar la IA en diferentes poblaciones de pacientes, pero el equipo de investigación no respondió a una solicitud de comentarios adicionales.

Las limitaciones de tiempo pueden explicar, si no excusar, algunos de los problemas encontrados con los modelos de IA desarrollados para Covid-19. Pero fallas metodológicas similares son comunes en una amplia franja de investigación de aprendizaje automático. Señalar estos lapsos se ha convertido en un subgénero propio de la investigación médica, con muchos artículos y editoriales que piden mejores modelos de evaluación e instan investigadores a ser [más transparentes sobre sus métodos] (https://www.nature.com/articles/d41586-019-03895-5).

La incapacidad de replicar los hallazgos es especialmente problemática, ya que erosiona la confianza en la IA y socava los esfuerzos para implementarla en la atención clínica.

Una revisión reciente de 511 estudios de aprendizaje automático en múltiples campos encontró que los producidos en el cuidado de la salud eran particularmente difíciles de replicar, porque el código subyacente y los conjuntos de datos rara vez se divulgaban. La revisión, realizada por investigadores del MIT, encontró que solo alrededor del 23 % de los estudios de aprendizaje automático en el cuidado de la salud utilizaron múltiples conjuntos de datos para establecer sus resultados, en comparación con el 80 % en el campo adyacente de la visión artificial y el 58 % en el procesamiento del lenguaje natural.

Es una brecha comprensible, dadas las restricciones de privacidad en la atención médica y la dificultad de acceder a datos que abarcan múltiples instituciones. Pero, no obstante, hace que sea más difícil para los desarrolladores de IA en el cuidado de la salud obtener suficientes datos para desarrollar modelos significativos en primer lugar, y les dificulta aún más divulgar públicamente sus fuentes para que los hallazgos puedan replicarse.

Google anunció recientemente una aplicación que usa IA para analizar las condiciones de la piel, pero se negó a revelar públicamente las fuentes de datos utilizados para crear el modelo. Un portavoz explicó que algunos de los conjuntos de datos tienen licencia de terceros o son donados por usuarios, y que la empresa no podía publicar los datos según los términos de sus acuerdos.

McDermott, el investigador del MIT, dijo que estas barreras estructurales deben superarse para garantizar que los efectos de estas herramientas puedan evaluarse y comprenderse por completo. Señaló varias formas de compartir datos sin socavar la privacidad o la propiedad intelectual, como el uso de un método de aprendizaje federado en el que las instituciones pueden desarrollar modelos de manera conjunta sin intercambiar sus datos. Otros también están utilizando datos sintéticos, o datos modelados en pacientes reales, para ayudar a preservar la privacidad.

McDermott dijo que el escrutinio cuidadoso de las herramientas de aprendizaje automático y los datos utilizados para entrenarlos es particularmente importante porque están haciendo correlaciones que son difíciles, si no imposibles, de verificar de forma independiente para los humanos.

También es importante considerar la naturaleza temporal de los modelos de IA cuando se evalúan. No se garantiza que un modelo entrenado en un conjunto de datos que luego se implementa en un mundo en constante cambio funcione de la misma manera. Los efectos de las enfermedades en los pacientes pueden cambiar, al igual que los métodos para tratarlas.

"Deberíamos ser inherentemente más escépticos ante cualquier afirmación de generalización a largo plazo y estabilidad de los resultados a lo largo del tiempo", dijo McDermott. "Un paradigma regulatorio estático en el que decimos: 'OK, este algoritmo obtiene un sello de aprobación y ahora puedes hacer lo que quieras con él para siempre jamás', eso me parece peligroso".

Problema 2956

Incidentes Asociados

Incidente 5352 Reportes
COVID-19 Detection and Prognostication Models Allegedly Flagged for Methodological Flaws and Underlying Biases

El aprendizaje automático está en auge en la medicina. También se enfrenta a una crisis de credibilidad.

Problema 2956

Incidentes Asociados

Incidente 5352 ReportesCOVID-19 Detection and Prognostication Models Allegedly Flagged for Methodological Flaws and Underlying Biases

El aprendizaje automático está en auge en la medicina. También se enfrenta a una crisis de credibilidad.

Incidente 5352 Reportes
COVID-19 Detection and Prognostication Models Allegedly Flagged for Methodological Flaws and Underlying Biases