Incidentes Asociados

Cada año 1,7 millones de adultos en los Estados Unidos desarrollan [sepsis](https://www.mayoclinic.org /diseases-conditions/sepsis/symptoms-causes/syc-20351214), una respuesta inmunitaria grave a la infección que acaba con la vida de unas 270 000 personas. Detectar la enfermedad a tiempo puede significar la diferencia entre la vida y la muerte.
Epic Systems, uno de los mayores desarrolladores de software de registros de salud electrónicos (EHR) de EE. UU., ofrece una herramienta llamada modelo Epic Early Detection of Sepsis que utiliza inteligencia artificial (IA), un software que imita la resolución de problemas humanos, para ayudar a los médicos a diagnosticar y tratar la sepsis antes. Pero un estudio reciente publicado en JAMA Internal Medicine encontró que la herramienta [rendía mal al identificar la sepsis](https://www.statnews .com/2021/07/26/epic-hospital-algorithms-sepsis-investigation/). Los resultados demuestran una realidad en este punto para los productos de atención médica de IA en general y resaltan la necesidad de prestar mucha atención a cómo funcionan en los entornos de atención médica reales.
Aunque [170 hospitales y proveedores de atención] (https://www.fiercehealthcare.com/tech/epic-s-widely-used-sepsis-prediction-model-falls-short-among-michigan-medicine-patients) han implementado el herramienta de sepsis desde 2017, algunos expertos [no están seguros de qué tan bien funciona el producto] (https://www.jwatch.org/na53777/2021/09/07/epics-sepsis-model-not-ready-prime-time). Al igual que con muchas otras herramientas de IA, no tuvo que someterse a una revisión de la Administración de Alimentos y Medicamentos (FDA) antes de ponerse en uso y no existe un sistema formal para monitorear su seguridad o rendimiento en diferentes sitios. Eso significa que no se requiere un informe central si un paciente no recibe la atención adecuada debido a una IA defectuosa.
Investigadores de la Universidad de Michigan en Ann Arbor evaluaron el rendimiento de la herramienta de sepsis de Epic después de que el hospital de su institución, Michigan Medicine, comenzara a usarla. En JAMA Internal Medicine, escribieron que dicho análisis era necesario porque "solo hay información limitada disponible públicamente sobre el rendimiento del modelo, y hasta la fecha no se han publicado validaciones independientes".
Sus hallazgos mostraron que el modelo de sepsis de IA identificó solo el 7% de los pacientes con sepsis que no habían recibido un tratamiento antibiótico oportuno. La herramienta no detectó la condición en el 67% de quienes la desarrollaron, pero generó alertas sobre miles que no lo hicieron.
Epic, sin embargo, [criticó los hallazgos] (https://www.fiercehealthcare.com/tech/epic-s-widely-used-sepsis-prediction-model-falls-short-among-michigan-medicine-patients) en noticias cobertura y en correspondencia con Pew, señalando que los investigadores no calibraron el modelo para su población de pacientes y datos específicos, definieron la sepsis de manera diferente al modelo de Epic y no reconocieron que [dos] (https://arxiv.org/pdf/ 1902.07276.pdf) [estudios] (https://journals.lww.com/ccmjournal/Citation/2021/01001/1235__Validating_the_Epic_Sepsis_Inpatient.1203.aspx) que evalúan el rendimiento del producto.
“Los modelos predictivos de Epic se desarrollan, validan y mejoran continuamente en colaboración con sistemas de salud, científicos de datos y médicos en una variedad de instituciones y ubicaciones”, afirmó la compañía. “Este proceso determina si un modelo se puede usar de manera efectiva en diferentes organizaciones. Más de 2300 hospitales y 48 000 clínicas tienen acceso y transparencia a los modelos y la documentación de respaldo de Epic”.
El estudio de Michigan y la respuesta a él reflejan el desafío más amplio con los productos de software de IA: la forma en que se vuelven a entrenar dentro de un entorno clínico es tan importante como la forma en que se desarrollan. Adaptar tales herramientas a nuevos entornos puede resultar difícil cuando las poblaciones de pacientes, el personal y los estándares para diagnosticar enfermedades y brindar atención pueden ser muy diferentes de aquellos en los que se basan los productos.
Antes de usar cualquier software de IA, los funcionarios del hospital deben adaptarlo a su entorno clínico y luego valide y pruebe el programa para asegurarse de que funciona. Una vez que el producto está en uso, el personal debe monitorearlo de manera continua para garantizar la seguridad y la precisión. Estos procesos requieren una inversión significativa y una atención regular; puede llevar años afinar el programa.
Los sistemas de IA deben evaluarse y monitorearse de manera rutinaria, dada la tendencia de sus algoritmos, las fórmulas en el corazón de las herramientas, a estar sesgados en formas a veces inesperadas. Por ejemplo, en un estudio histórico publicado en 2019, los científicos descubrieron que una herramienta de inteligencia artificial utilizada ampliamente para ayudar a los hospitales a asignar recursos subestimó drásticamente la necesidades de atención médica de los pacientes negros. Debido a que su algoritmo usó los costos de atención médica como un indicador para evaluar la salud real de los pacientes, el software perpetuó el sesgo en contra de las personas negras, que tienden a gastar menos en atención médica, no debido a las diferencias en la salud general, sino a [inequidades sistémicas] (https ://jamanetwork.com/journals/jama-health-forum/fullarticle/2767595) dan como resultado [menos acceso a tratamientos y atención médica] (https://www.ahrq.gov/sites/default/files/wysiwyg/research /hallazgos/nhqrdr/2019qdr.pdf).
Revelando posibles sesgos geográficos, un análisis de 2020 encontró que, [de 74 estudios utilizados para desarrollar sistemas de IA de diagnóstico basados en imágenes] (https://jamanetwork.com/journals/jama/fullarticle/2770833), la mayoría se basó en datos de solo California, Nueva York y Massachusetts; 34 estados quedaron completamente fuera de los estudios. Si la IA se basa exclusivamente en datos de estados mayoritariamente metropolitanos, es posible que no funcione tan bien cuando se usa en estados más rurales. Los pacientes, sus estilos de vida, la incidencia de la enfermedad y el acceso a diagnósticos y tratamientos, difieren demasiado.
Simplemente transferir IA de un contexto a otro sin revisar la población potencial, los recursos o [las diferencias sistémicas pueden introducir sesgos] (https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3347890). Por ejemplo, un algoritmo diseñado para escanear registros médicos electrónicos e identificar pacientes con cáncer de pulmón con ciertas mutaciones tumorales funcionó bien en el estado de Washington pero significativamente menos en Kentucky, porque los registros usaban terminología diferente para catalogar los tipos de cáncer. Además, la IA entrenada en entornos con médicos altamente calificados y equipos avanzados puede hacer recomendaciones que no son apropiadas para hospitales con menos recursos.
Desafortunadamente, hay pocos recursos independientes disponibles para ayudar a los hospitales y los sistemas de salud a navegar por el terreno de la IA. Para ayudarlos, las sociedades médicas profesionales podrían desarrollar una guía para validar y monitorear las herramientas de IA relacionadas con sus especialidades. Por ejemplo, el Instituto de Ciencia de Datos del Colegio Estadounidense de Radiología tiene [una serie de libros blancos] (https://www.acrdsi.org/Resources) destinados a ayudar a los usuarios a decidir si usar estos productos, cuándo y cómo hacerlo. Las organizaciones de desarrollo de estándares, como [el Instituto Nacional de Estándares y Tecnología] (https://www.nist.gov/artificial-intelligence/benchmarks-metrics), también pueden establecer puntos de referencia y otras métricas contra las cuales se pueden evaluar los productos de IA.
Los investigadores también sugirieron implementar estándares y métodos de rutina para la vigilancia posterior a la comercialización para asegurar la efectividad y equidad de los sistemas, de forma similar a cómo se monitorean los medicamentos una vez que están en el mercado. Esto es importante para los algoritmos adaptativos que siguen aprendiendo en función de nuevos datos, así como para los algoritmos no adaptativos. Este último puede experimentar [desviación del concepto] (http://arxiv-export-lb.library.cornell.edu/pdf/2011.02738), en el que el algoritmo en realidad comienza a funcionar peor con el tiempo.
Con la IA todavía tan nueva en el cuidado de la salud, hay muchas más preguntas que respuestas: sin un estándar de oro uniforme que sea consistente de hospital a hospital, ¿cómo deberían los proveedores de atención médica calibrar y validar la IA para reflejar las necesidades específicas de sus pacientes? ¿Cómo deben monitorear los productos de IA en uso y dónde deben informar los problemas, incluidos los eventos adversos? ¿Qué estándares deberían usar los desarrolladores de IA para validar sus propios productos, especialmente aquellos que la FDA no revisa ni aprueba, y cómo pueden asegurar a los usuarios que sus algoritmos son precisos y libres de sesgos? ¿Qué más pueden hacer los reguladores, principalmente la FDA y la Comisión Federal de Comercio, para garantizar que estos productos sean seguros y efectivos?
A medida que las partes interesadas luchan con estas preguntas, es fundamental que los proveedores de atención médica reconozcan no solo el valor único que la IA puede brindar, sino también los desafíos únicos para implementarlos.