Report 1551

Cuando el covid-19 golpeó a Europa en marzo de 2020, los hospitales se sumergieron en una crisis sanitaria que aún no se entendía bien. “Los médicos realmente no tenían idea de cómo manejar a estos pacientes”, dice Laure Wynants, epidemióloga de la Universidad de Maastricht en los Países Bajos, que estudia herramientas predictivas.

Pero surgieron datos de China, que tenía una ventaja de cuatro meses en la carrera para vencer la pandemia. Si los algoritmos de aprendizaje automático pudieran entrenarse con esos datos para ayudar a los médicos a comprender lo que estaban viendo y tomar decisiones, podría salvar vidas. "Pensé: 'Si hay algún momento en que la IA podría demostrar su utilidad, es ahora'", dice Wynants. “Tenía muchas esperanzas”.

Nunca sucedió, pero no por falta de esfuerzo. Los equipos de investigación de todo el mundo se ofrecieron para ayudar. La comunidad de IA, en particular, se apresuró a desarrollar un software que muchos creían que permitiría a los hospitales diagnosticar o clasificar a los pacientes más rápido, brindando el apoyo que tanto necesitaban al frente, en teoría.

Al final, se desarrollaron muchos cientos de herramientas predictivas. Ninguno de ellos marcó una diferencia real, y algunos fueron potencialmente dañinos.

Esa es la conclusión condenatoria de múltiples estudios publicados en los últimos meses. En junio, el Instituto Turing, el centro nacional de ciencia de datos e inteligencia artificial del Reino Unido, publicó un informe que resume las discusiones en una serie de talleres que realizó a fines de 2020. El consenso claro fue que las herramientas de inteligencia artificial habían tenido poco o ningún impacto. en la lucha contra el covid.

No apto para uso clínico.

Esto se hace eco de los resultados de dos importantes estudios que evaluaron cientos de herramientas predictivas desarrolladas el año pasado. Wynants es el autor principal de uno de ellos, una revisión en el British Medical Journal que aún se actualiza a medida que se lanzan nuevas herramientas y se prueban las existentes. Ella y sus colegas han analizado 232 algoritmos para diagnosticar pacientes o predecir qué tan enfermos podrían enfermarse quienes padecen la enfermedad. Descubrieron que ninguno de ellos era apto para uso clínico. Solo dos han sido señalados como lo suficientemente prometedores para futuras pruebas.

"Es impactante", dice Wynants. “Entré con algunas preocupaciones, pero esto superó mis temores”.

El estudio de Wynants está respaldado por otra gran revisión realizada por Derek Driggs, investigador de aprendizaje automático de la Universidad de Cambridge, y sus colegas, y publicada en Nature Machine Intelligence. Este equipo se centró en los modelos de aprendizaje profundo para diagnosticar covid y predecir el riesgo del paciente a partir de imágenes médicas, como radiografías de tórax y tomografías computarizadas (TC) de tórax. Examinaron 415 herramientas publicadas y, al igual que Wynants y sus colegas, concluyeron que ninguna era apta para uso clínico.

“Esta pandemia fue una gran prueba para la IA y la medicina”, dice Driggs, quien está trabajando en una herramienta de aprendizaje automático para ayudar a los médicos durante la pandemia. “Habría recorrido un largo camino para que el público estuviera de nuestro lado”, dice. “Pero no creo que hayamos pasado esa prueba”.

Ambos equipos encontraron que los investigadores repetían los mismos errores básicos en la forma en que entrenaron o probaron sus herramientas. Las suposiciones incorrectas sobre los datos a menudo significaban que los modelos entrenados no funcionaban como se afirmaba.

Wynants y Driggs todavía creen que la IA tiene el potencial de ayudar. Pero les preocupa que pueda ser dañino si se construye de manera incorrecta porque podrían pasar por alto los diagnósticos o subestimar el riesgo para los pacientes vulnerables. “Hay mucha expectación sobre los modelos de aprendizaje automático y lo que pueden hacer hoy”, dice Driggs.

Las expectativas poco realistas fomentan el uso de estas herramientas antes de que estén listas. Wynants y Driggs dicen que algunos de los algoritmos que analizaron ya se han utilizado en hospitales, y algunos están siendo comercializados por desarrolladores privados. “Me temo que pueden haber dañado a los pacientes”, dice Wynants.

Entonces, ¿qué salió mal? ¿Y cómo acortamos esa brecha? Si hay algo positivo, es que la pandemia ha dejado en claro a muchos investigadores que la forma en que se construyen las herramientas de IA debe cambiar. “La pandemia ha puesto en el punto de mira problemas que veníamos arrastrando desde hace tiempo”, dice Wynants.

Qué salió mal

Muchos de los problemas que se descubrieron están relacionados con la mala calidad de los datos que los investigadores utilizaron para desarrollar sus herramientas. La información sobre los pacientes con covid, incluidas las exploraciones médicas, se recopiló y compartió en medio de una pandemia mundial, a menudo por parte de los médicos que luchan por tratar a esos pacientes. Los investigadores querían ayudar rápidamente y estos eran los únicos conjuntos de datos públicos disponibles. Pero esto significó que muchas herramientas se crearon utilizando datos mal etiquetados o datos de fuentes desconocidas.

Driggs destaca el problema de lo que él llama conjuntos de datos de Frankenstein, que se unen a partir de múltiples fuentes y pueden contener duplicados. Esto significa que algunas herramientas terminan siendo probadas con los mismos datos con los que fueron entrenadas, lo que hace que parezcan más precisas de lo que son.

También enturbia el origen de ciertos conjuntos de datos. Esto puede significar que los investigadores pasan por alto características importantes que sesgan el entrenamiento de sus modelos. Muchos, sin saberlo, utilizaron un conjunto de datos que contenía escaneos de tórax de niños que no tenían covid como ejemplos de cómo se veían los casos sin covid. Pero como resultado, las IA aprendieron a identificar a los niños, no al covid.

El grupo de Driggs entrenó su propio modelo utilizando un conjunto de datos que contenía una combinación de escaneos tomados cuando los pacientes estaban acostados y de pie. Debido a que los pacientes escaneados mientras estaban acostados tenían más probabilidades de estar gravemente enfermos, la IA aprendió erróneamente a predecir un riesgo grave de covid desde la posición de una persona.

En otros casos, se descubrió que algunas IA recogían la fuente de texto que ciertos hospitales usaban para etiquetar los escaneos. Como resultado, las fuentes de hospitales con casos más graves se convirtieron en predictores de riesgo de covid.

Errores como estos parecen obvios en retrospectiva. También se pueden solucionar ajustando los modelos, si los investigadores los conocen. Es posible reconocer las deficiencias y publicar un modelo menos preciso pero menos engañoso. Pero muchas herramientas fueron desarrolladas por investigadores de IA que carecían de la experiencia médica para detectar fallas en los datos o por investigadores médicos que carecían de las habilidades matemáticas para compensar esas fallas.

Un problema más sutil que destaca Driggs es el sesgo de incorporación, o sesgo introducido en el punto en que se etiqueta un conjunto de datos. Por ejemplo, muchas exploraciones médicas se etiquetaron según si los radiólogos que las crearon dijeron que mostraban covid. Pero eso incrusta, o incorpora, cualquier sesgo de ese médico en particular en la verdad básica de un conjunto de datos. Sería mucho mejor etiquetar una exploración médica con el resultado de una prueba de PCR en lugar de la opinión de un médico, dice Driggs. Pero no siempre hay tiempo para sutilezas estadísticas en hospitales ocupados.

Eso no ha impedido que algunas de estas herramientas se apresuren a la práctica clínica. Wynants dice que no está claro cuáles se están utilizando o cómo. Los hospitales a veces dicen que están usando una herramienta solo con fines de investigación, lo que dificulta evaluar cuánto confían los médicos en ellos. “Hay mucho secreto”, dice ella.

Wynants le pidió a una empresa que comercializaba algoritmos de aprendizaje profundo que compartiera información sobre su enfoque, pero no recibió respuesta. Más tarde encontró varios modelos publicados de investigadores vinculados a esta empresa, todos ellos con un alto riesgo de sesgo. “En realidad, no sabemos qué implementó la empresa”, dice.

Según Wynants, algunos hospitales incluso están firmando acuerdos de confidencialidad con proveedores de IA médica. Cuando les preguntó a los médicos qué algoritmos o software estaban usando, a veces le dijeron que no podían decirlo.

Como arreglarlo

¿Cuál es la solución? Mejores datos ayudarían, pero en tiempos de crisis es una gran pregunta. Es más importante aprovechar al máximo los conjuntos de datos que tenemos. El movimiento más simple sería que los equipos de IA colaboraran más con los médicos, dice Driggs. Los investigadores también deben compartir sus modelos y revelar cómo fueron capacitados para que otros puedan probarlos y construir sobre ellos. “Esas son dos cosas que podríamos hacer hoy”, dice. “Y resolverían quizás el 50 % de los problemas que identificamos”.

Obtener datos también sería más fácil si los formatos estuvieran estandarizados, dice Bilal Mateen, médico que dirige el equipo de tecnología clínica en Wellcome Trust, una organización benéfica de investigación de salud global con sede en Londres.

Otro problema que identifican Wynants, Driggs y Mateen es que la mayoría de los investigadores se apresuraron a desarrollar sus propios modelos, en lugar de trabajar juntos o mejorar los existentes. El resultado fue que el esfuerzo colectivo de investigadores de todo el mundo produjo cientos de herramientas mediocres, en lugar de un puñado de herramientas debidamente entrenadas y probadas.

“Los modelos son muy similares, casi todos usan las mismas técnicas con ajustes menores, las mismas entradas, y todos cometen los mismos errores”, dice Wynants. "Si todas estas personas que fabrican nuevos modelos probaran modelos que ya estaban disponibles, tal vez ahora tendríamos algo que realmente podría ayudar en la clínica".

En cierto sentido, este es un viejo problema de la investigación. Los investigadores académicos tienen pocos incentivos profesionales para compartir el trabajo o validar los resultados existentes. No hay recompensa por superar la última milla que lleva a la tecnología del "banco de laboratorio a la cama", dice Mateen.

Para abordar este problema, la Organización Mundial de la Salud está considerando un contrato de intercambio de datos de emergencia que se activaría durante las crisis de salud internacionales. Permitiría a los investigadores mover datos a través de las fronteras más fácilmente, dice Mateen. Antes de la cumbre del G7 en el Reino Unido en junio, los principales grupos científicos de las naciones participantes también pidieron "preparación de datos" en preparación para futuras emergencias de salud.

Tales iniciativas suenan un poco vagas, y los llamados al cambio siempre tienen una pizca de ilusión al respecto. Pero Mateen tiene lo que él llama una visión “ingenuamente optimista”. Antes de la pandemia, el impulso de este tipo de iniciativas se había estancado. “Parecía que era una montaña demasiado alta para caminar y la vista no valía la pena”, dice. “Covid ha vuelto a poner mucho de esto en la agenda”.

“Hasta que aceptemos la idea de que debemos resolver los problemas desagradables antes que los sexys, estaremos condenados a repetir los mismos errores”, dice Mateen. “Es inaceptable si no sucede. Olvidar las lecciones de esta pandemia es una falta de respeto a quienes fallecieron”.

Problema 1551

Incidentes Asociados

Incidente 1731 Reporte
AI Tools Failed to Sufficiently Predict COVID Patients, Some Potentially Harmful

Se han creado cientos de herramientas de inteligencia artificial para atrapar covid. Ninguno de ellos ayudó.

Problema 1551

Incidentes Asociados

Incidente 1731 ReporteAI Tools Failed to Sufficiently Predict COVID Patients, Some Potentially Harmful

Se han creado cientos de herramientas de inteligencia artificial para atrapar covid. Ninguno de ellos ayudó.

Incidente 1731 Reporte
AI Tools Failed to Sufficiently Predict COVID Patients, Some Potentially Harmful