Report 1892

Es posible que haya oído hablar de GPT-3 este verano, el nuevo chico genial en el bloque de IA. GPT-3 surgió de OpenAI, uno de los principales laboratorios de investigación de IA del mundo que fue fundado a fines de 2015 por Elon Musk, Sam Altman y otros y luego respaldado con una inversión de $ 1B de Microsoft.

Probablemente también haya oído hablar de la revolución en curso de la IA en el cuidado de la salud, gracias a los resultados prometedores en áreas como el diagnóstico automatizado, la documentación médica y el descubrimiento de fármacos, por nombrar algunos. Algunos han afirmado que los algoritmos ahora superan a los médicos en [ciertas tareas] (https://hbr.org/2019/10/ai-can-outperform-doctors-so-why-dont-patients-trust-it) y otros incluso han anunció que los robots pronto recibirán títulos médicos propios. Todo esto puede sonar descabellado... pero ¿podría este robot ser realmente GPT-3?

Nuestro exclusivo equipo multidisciplinario de médicos e ingenieros de aprendizaje automático en Nabla tuvo la oportunidad de probar este nuevo modelo para separar lo que es real y lo que es exagerado al explorar diferentes casos de uso de atención médica.

Pero primero Café

En el aprendizaje automático, un modelo de lenguaje como GPT-3 simplemente intenta predecir una palabra en una oración dadas las palabras anteriores, lo que se denomina contexto. Es un sistema de autocompletar supercargado como el que puede usar con Gmail. Ser capaz de predecir la siguiente palabra en una oración parece engañosamente simple al principio, pero esto en realidad permite muchos casos de uso convincentes, como chatbots, traducción o preguntas y respuestas.

En el momento de escribir este artículo, GPT-3 es el modelo de lenguaje más complejo jamás entrenado, con la friolera de 175 mil millones de parámetros en total, es decir, tantas perillas que se ajustan con precisión durante semanas de computación en la nube intensiva para hacer que la IA funcione. Sin duda, un número enorme, pero aún muy por debajo de los 100 (o tal vez más de 1000) billones de sinapsis en el cerebro humano que permiten el razonamiento, la percepción y las emociones.

Gracias al gran tamaño del modelo, GPT-3 se puede aplicar en nuevas tareas y demostraciones de "pocas tomas" sin ningún ajuste adicional en datos específicos. En la práctica, esto significa que el modelo puede comprender con éxito la tarea a realizar con solo un puñado de ejemplos iniciales. Esta propiedad es una gran mejora en comparación con los modelos de lenguaje anteriores, menos complejos, y está mucho más cerca del comportamiento humano real: no necesitamos miles de ejemplos para distinguir un gato de un perro.

A pesar de los sesgos obvios aprendidos de los datos utilizados para la capacitación, básicamente libros e Internet, desde Wikipedia hasta el New York Times, la capacidad de GPT-3 para transformar el lenguaje natural en sitios web, crear informes financieros básicos, resolver acertijos de lenguaje o incluso generar guitarra. tables ha sido muy prometedor hasta ahora. Pero, ¿y la sanidad?

Entonces, el descargo de responsabilidad obvio

Como advierte Open AI en las pautas GPT-3, la atención médica "está en la categoría de alto riesgo porque las personas confían en información médica precisa para tomar decisiones de vida o muerte, y los errores aquí podrían provocar daños graves". Además, el diagnóstico de condiciones médicas o psiquiátricas cae directamente en el "uso no respaldado" del modelo. A pesar de esto, queríamos intentarlo y ver cómo funciona en los siguientes casos de uso de atención médica, clasificados aproximadamente de baja a alta sensibilidad desde una perspectiva médica: chat de administrador con un paciente, verificación de seguro médico, apoyo de salud mental, documentación médica, preguntas y respuestas médicas y diagnóstico médico. También analizamos el impacto de algunos parámetros del modelo en las respuestas: ¡alerta de spoiler, es fascinante!

GPT-3, ¿tu próximo asistente médico?

Nuestras primeras pruebas mostraron que GPT-3 parecía funcionar para tareas administrativas básicas, como la reserva de citas, pero al investigar un poco, descubrimos que el modelo no tenía una comprensión clara del tiempo ni una lógica adecuada. Su memoria a veces también se quedó corta: para la cita en el ejemplo a continuación, la restricción inicial de las 6:00 p. m. del paciente se pasa por alto, ya que GPT-3 sugiere reservar para las 7:00 p. m. después de algunos mensajes.

¿Qué pasa con los cheques de seguro?

De manera similar a las tareas administrativas anteriores, GPT-3 podría ayudar a las enfermeras o los pacientes a encontrar rápidamente información en un documento muy largo, como encontrar beneficios de seguro para exámenes médicos específicos. En el siguiente ejemplo, sembramos el modelo con una tabla de beneficios estándar de 4 páginas que muestra un copago de $10 por una radiografía, $20 por un examen de resonancia magnética y luego hicimos 2 preguntas simples. GPT-3 pudo obtener el copago de una radiografía, pero no pudo resumir los copagos de varios exámenes, lo que nuevamente destaca la falta de razonamiento básico.

¡Recicla para aliviar el estrés!

Relájese en el sofá de su sala de estar y hable, GPT-3 escuchará sus problemas sin cesar e incluso puede darle algunos consejos prácticos. Este es probablemente uno de los mejores casos de uso de GPT-3 en el cuidado de la salud, y no es tan sorprendente dados los ya buenos resultados del algoritmo Eliza en 1966, que logró dar un toque humano con solo reglas de coincidencia de patrones operando entre bastidores. .

Sin embargo, una diferencia clave entre los dos enfoques es que los sistemas basados en reglas como Eliza tenían el control total de la respuesta de la computadora. En otras palabras, estamos seguros de que no se puede decir nada potencialmente dañino.

Esto contrasta con el siguiente ejemplo en el que GPT-3 nos dice tristemente que suicidarse es una buena idea...

El modelo también puede arrojar respuestas inesperadas en las que sugiere reciclar más para aliviar el estrés, utilizando una lógica que, si bien es enrevesada, ¡en realidad es bastante sensata!

Documentación médica

GPT-3 ya ha mostrado resultados prometedores al resumir y simplificar el texto, algo que podría ser muy útil para que los pacientes entiendan los informes médicos, a menudo llenos de jerga, o para que los médicos obtengan rápidamente la esencia del extenso historial médico de un paciente. Bueno, GPT-3 probablemente no esté listo para esto (¿todavía?). Nuestras pruebas muestran peligrosas simplificaciones excesivas, dificultades para asociar causas y consecuencias y, una vez más, una falta de razonamiento deductivo básico.

Preguntas y respuestas médicas: todavía no tan bueno como el viejo Google

Al buscar información científica específica, dosis de medicamentos o respaldo de recetas, nuestros experimentos muestran que GPT-3 no es lo suficientemente confiable como para usarse de manera segura como una herramienta de apoyo confiable para los médicos. Una preocupación seria es que GPT-3 muy a menudo da respuestas incorrectas pero gramaticalmente correctas, sin ninguna referencia científica que un médico pueda verificar. Un médico cansado atrapado en el ajetreo de un servicio de urgencias podría confundir fácilmente una afirmación sintácticamente sólida con una válida desde el punto de vista médico. Por ejemplo, la primera respuesta a continuación es correcta, pero no la segunda.

Diagnóstico: bajo su propio riesgo

Una tarea de preguntas y respuestas más compleja es el diagnóstico: ingrese los síntomas y obtenga las posibles condiciones subyacentes que pueden explicar estos síntomas. Los sistemas de verificación de síntomas recientes (Babylon, Ada, KHealth, etc.), aunque no son perfectos, parecen ser una mejor opción aquí que GPT-3, ya que se han optimizado cuidadosamente para este único propósito. Un beneficio de estos sistemas es que pueden generar diferentes diagnósticos con sus probabilidades, lo que actúa como una medida de confianza para el médico. Si el primer ejemplo de diagnóstico debajo de GPT-3 ignora la fiebre de la niña que sugiere etmoiditis y menciona una "erupción" que no existe.

En otra prueba, GPT-3 pasa por alto una embolia pulmonar. ¡Afortunadamente nadie murió aquí!

Bajo el capó

Como otros han observado, la calidad de los resultados de GPT-3 se ve muy afectada por las palabras iniciales utilizadas: la misma pregunta formulada de dos maneras diferentes puede dar como resultado respuestas muy diferentes. Los diversos parámetros del modelo, como la temperatura y la P superior, también juegan un papel importante. La temperatura y la P superior controlan los riesgos y la creatividad que el motor exhibirá en sus respuestas.

La temperatura

Para la misma entrada y una temperatura alta obtenemos dos respuestas con tonos muy diferentes que dicen dos cosas opuestas. Aquí hay un ejemplo con T = 0.9.

Por el contrario, una semilla similar con una temperatura muy baja (T = 0) siempre dará como resultado la misma y bastante sencilla respuesta.

Penalización de frecuencia y penalización de presencia

También es pertinente mencionar los parámetros de penalización de frecuencia y penalización de presencia, que impiden tanto la repetición de palabras como la repetición de sujetos. En un contexto médico, la intuición sería reducirlos tanto como sea posible, ya que un cambio de tema demasiado brusco puede ser muy confuso y la repetición puede ser realmente pedagógica. Sin embargo, al comparar dos conversaciones en las que el humano hace las mismas preguntas, observamos claramente que el modelo con penas repetidas parece más empático y amable que el otro que parece frío y demasiado repetitivo para ser humano. Aquí hay un ejemplo sin penalización.

Y un ejemplo con pena completa.

Conclusión

Como advirtió OpenAI, no estamos cerca de ningún escenario en tiempo real en el que GPT-3 ayudaría significativamente en el cuidado de la salud. Debido a la forma en que se entrenó, carece de la experiencia científica y médica que lo haría útil para la documentación médica, el apoyo al diagnóstico, la recomendación de tratamiento o cualquier pregunta y respuesta médica. Sí, GPT-3 puede estar en lo correcto en sus respuestas, pero también puede estar muy equivocado, y esta inconsistencia simplemente no es viable en el cuidado de la salud. Incluso para tareas más administrativas, como traducir o resumir la jerga médica, GPT-3, si bien es prometedor, todavía está a muchas lunas de distancia para un caso de uso de producción que realmente respalde a los médicos. Todavía estamos en esta fase en la que múltiples modelos supervisados de tareas limitadas ganan a un enfoque único y muy ambicioso.

Dicho esto, GPT-3 parece estar listo para combatir el agotamiento y ayudar a los médicos con un módulo de charla. Podría devolverle la alegría y la empatía que obtendría de una conversación con sus residentes médicos al final del día, esa conversación que lo ayuda a volver a la tierra al final de un día ajetreado. Además, no hay duda de que los modelos de lenguaje en general estarán mejorando a un ritmo acelerado, con un impacto positivo no solo en los casos de uso descritos anteriormente, sino también en otros problemas importantes, como la estructuración y normalización de la información o los resúmenes de consulta automática.

¡Y en Nabla estamos trabajando en ello!

Problema 1892

Doctor GPT-3: ¿bombo o realidad?