Report 1892

Vous avez peut-être entendu parler de GPT-3 cet été, le nouveau cool kid sur le bloc AI. GPT-3 est issu d'OpenAI, l'un des meilleurs laboratoires de recherche sur l'IA au monde, fondé fin 2015 par Elon Musk, Sam Altman et d'autres, et soutenu plus tard par un investissement de 1 milliard de dollars de Microsoft.

Vous avez probablement également entendu parler de la révolution en cours de l'IA dans les soins de santé, grâce à des résultats prometteurs dans des domaines tels que le diagnostic automatisé, la documentation médicale et la découverte de médicaments, pour n'en nommer que quelques-uns. Certains ont affirmé que les algorithmes surpassent désormais les médecins sur [certaines tâches] (https://hbr.org/2019/10/ai-can-outperform-doctors-so-why-dont-patients-trust-it) et d'autres ont même a annoncé que les robots recevront bientôt leurs propres diplômes médicaux ! Tout cela peut sembler tiré par les cheveux... mais ce robot pourrait-il en fait être GPT-3 ?

Notre équipe multidisciplinaire unique de médecins et d'ingénieurs en apprentissage automatique à Nabla a eu la chance de tester ce nouveau modèle pour distinguer ce qui est réel de ce qui est à la mode en explorant différents cas d'utilisation des soins de santé.

Mais premier café

Dans l'apprentissage automatique, un modèle de langage comme GPT-3 essaie simplement de prédire un mot dans une phrase en fonction des mots précédents, appelés le contexte. C'est un système de saisie semi-automatique suralimenté comme celui que vous pouvez utiliser avec Gmail. Être capable de prédire le mot suivant dans une phrase semble d'une simplicité trompeuse au début, mais cela permet en fait de nombreux cas d'utilisation convaincants, tels que les chatbots, la traduction ou les questions-réponses.

Au moment de la rédaction, GPT-3 est le modèle de langage le plus complexe jamais formé, avec 175 milliards de paramètres au total - c'est autant de boutons qui sont affinés au cours de semaines de cloud computing intensif pour faire fonctionner la magie de l'IA. Certainement un nombre énorme, mais toujours bien en deçà des 100 (ou peut-être plus de 1000) trillions de synapses dans le cerveau humain qui permettent le raisonnement, la perception et les émotions.

Grâce à la grande taille du modèle, le GPT-3 peut être appliqué sur de nouvelles tâches et des démonstrations « quelques prises de vue » sans aucun ajustement supplémentaire sur des données spécifiques. En pratique, cela signifie que le modèle peut comprendre avec succès la tâche à accomplir avec seulement une poignée d'exemples initiaux. Cette propriété est une énorme amélioration par rapport aux modèles de langage précédents, moins complexes, et est beaucoup plus proche du comportement humain réel - nous n'avons pas besoin de milliers d'exemples pour distinguer un chat d'un chien.

Malgré des préjugés évidents tirés des données utilisées pour la formation - essentiellement des livres et tout Internet, de Wikipédia au New York Times - la capacité de GPT-3 à transformer le langage naturel en sites Web, à créer des rapports financiers de base, à résoudre des énigmes linguistiques ou même à générer de la guitare tables a été très prometteur jusqu'à présent. Mais qu'en est-il des soins de santé?

Ensuite, l'avertissement évident

Comme Open AI lui-même l'avertit dans les directives GPT-3, les soins de santé "font partie de la catégorie des enjeux élevés car les gens s'appuient sur des informations médicales précises pour prendre des décisions de vie ou de mort, et des erreurs ici pourraient entraîner de graves dommages". De plus, diagnostiquer des conditions médicales ou psychiatriques relève directement de «l'utilisation non assistée» du modèle. Malgré cela, nous voulions essayer et voir comment cela se passe dans les cas d'utilisation de soins de santé suivants, classés grosso modo de sensibilité faible à élevée d'un point de vue médical : conversation administrative avec un patient, vérification de l'assurance médicale, soutien en santé mentale, documentation médicale, questions et réponses médicales et diagnostic médical. On s'est aussi penché sur l'impact de certains paramètres du modèle sur les réponses - spoiler alert, c'est passionnant !

GPT-3, votre prochain assistant médical ?

Nos premiers tests ont montré que GPT-3 semblait fonctionner pour les tâches administratives de base telles que la prise de rendez-vous, mais en creusant un peu, nous avons constaté que le modèle n'avait aucune compréhension claire du temps, ni aucune logique appropriée. Sa mémoire a aussi parfois manqué - pour le rendez-vous dans l'exemple ci-dessous, la contrainte initiale de 18h du patient est ignorée car GPT-3 suggère de réserver pour 19h après quelques messages.

Qu'en est-il des chèques d'assurance ?

Semblable aux tâches administratives ci-dessus, GPT-3 pourrait aider les infirmières ou les patients à trouver rapidement une information dans un très long document, comme la recherche de prestations d'assurance pour des examens médicaux spécifiques. Dans l'exemple ci-dessous, nous avons ensemencé le modèle avec un tableau des avantages standard de 4 pages qui montre une quote-part de 10 $ pour une radiographie, 20 $ pour un examen IRM, puis nous avons posé 2 questions simples. GPT-3 a pu obtenir la quote-part pour une radiographie mais n'a pas pu résumer les quotes-parts pour plusieurs examens, ce qui met encore une fois en évidence un manque de raisonnement de base.

Recyclez pour soulager le stress !

Détendez-vous sur le canapé de votre salon et parlez, GPT-3 écoutera vos problèmes à l'infini et pourra même vous donner des conseils pratiques ! C'est probablement l'un des meilleurs cas d'utilisation du GPT-3 dans le domaine de la santé, et ce n'est pas si surprenant compte tenu des résultats déjà bons de l'algorithme Eliza en 1966, qui a réussi à donner une touche humaine avec uniquement des règles de correspondance de modèles opérant dans les coulisses. .

Une différence clé entre les deux approches est que les systèmes basés sur des règles comme Eliza contrôlaient totalement la réponse de l'ordinateur. En d'autres termes, nous sommes certains que rien de potentiellement nuisible ne pourrait être dit.

Cela contraste avec l'exemple ci-dessous dans lequel GPT-3 nous dit tristement que se suicider est une bonne idée…

Le modèle peut également tirer des réponses inattendues où il suggère de recycler davantage pour atténuer le stress - en utilisant un raisonnement qui, bien qu'alambiqué, est en fait assez sensé !

Documents médicaux

GPT-3 a déjà montré des résultats prometteurs en résumant et en simplifiant le texte, ce qui pourrait être très utile pour que les patients comprennent des rapports médicaux souvent pleins de jargon, ou pour que les médecins obtiennent rapidement l'essentiel des longs antécédents médicaux d'un patient. Eh bien, GPT-3 n'est probablement pas tout à fait prêt pour cela (encore ?). Nos tests montrent des simplifications dangereuses, des difficultés à associer causes et conséquences, et encore une fois un manque de raisonnement déductif de base.

Questions-réponses médicales : pas encore aussi bon que le bon vieux Google

Lors de la recherche d'informations scientifiques spécifiques, de dosages de médicaments ou d'un support de prescription, nos expériences montrent que le GPT-3 n'est pas suffisamment fiable pour être utilisé en toute sécurité comme un outil d'assistance fiable pour les médecins. Une préoccupation sérieuse est que le GPT-3 donne très souvent des réponses erronées mais grammaticalement correctes, sans aucune référence scientifique qu'un médecin puisse vérifier. Un médecin fatigué pris dans la précipitation d'un service d'urgence pourrait facilement confondre une déclaration syntaxiquement correcte avec une déclaration médicalement valide. Par exemple, la première réponse ci-dessous est correcte mais pas la seconde.

Diagnostic : à vos risques et périls

Une tâche de questions-réponses plus complexe est le diagnostic : entrez les symptômes et obtenez les conditions sous-jacentes possibles qui peuvent expliquer ces symptômes. Les systèmes récents de vérification des symptômes (Babylon, Ada, KHealth, etc.), s'ils ne sont pas parfaits, semblent être une meilleure option ici que GPT-3 car ils ont été soigneusement optimisés dans ce seul but. L'un des avantages de ces systèmes est qu'ils peuvent produire différents diagnostics avec leurs probabilités, ce qui agit comme une mesure de confiance pour le praticien. Si le premier exemple de diagnostic ci-dessous GPT-3 ignore la fièvre de la petite fille qui évoque une ethmoïdite et évoque une « éruption cutanée » qui n'existe pas.

Dans un autre test, le GPT-3 rate une embolie pulmonaire. Heureusement personne n'est mort ici !

Sous la capuche

Comme d'autres l'ont observé, la qualité des sorties GPT-3 est fortement influencée par les mots clés utilisés - la même question formulée de deux manières différentes peut entraîner des réponses très différentes. Les différents paramètres du modèle, tels que la température et le top P jouent également un grand rôle. La température et le top P contrôlent les risques et la créativité que le moteur fera preuve dans ses réponses.

Température

Pour une même entrée et une température élevée on obtient deux réponses avec des tonalités très différentes disant deux choses opposées. Voici un exemple avec T = 0,9.

En revanche, une graine similaire avec une température très basse (T = 0) donnera toujours la même réponse assez simple.

Pénalité de fréquence et pénalité de présence

Il est également pertinent de mentionner les paramètres de pénalité de fréquence et de pénalité de présence, qui empêchent à la fois la répétition de mots et la répétition de sujets. Dans un contexte médical, l'intuition serait de les réduire au maximum car un changement de sujet trop brusque peut être très déroutant et la répétition peut être pédagogique. Cependant, en comparant deux conversations où l'humain pose les mêmes questions, on observe clairement que le modèle avec pénalités de répétition semble plus empathique et amical que l'autre qui apparaît froid et trop répétitif pour être humain. Voici un exemple sans pénalité.

Et un exemple avec pénalité complète.

Conclusion

Comme l'a averti OpenAI, nous sommes loin d'un scénario en temps réel où GPT-3 aiderait de manière significative dans les soins de santé. En raison de la façon dont il a été formé, il manque l'expertise scientifique et médicale qui le rendrait utile pour la documentation médicale, l'aide au diagnostic, la recommandation de traitement ou toute question-réponse médicale. Oui, GPT-3 peut avoir raison dans ses réponses, mais il peut aussi être très faux, et cette incohérence n'est tout simplement pas viable dans le domaine de la santé. Même pour des tâches plus administratives telles que la traduction ou la synthèse du jargon médical, GPT-3, bien que prometteur, est encore à de nombreuses lunes pour un cas d'utilisation de production soutenant réellement les médecins. Nous sommes encore dans cette phase où plusieurs modèles supervisés à tâches étroites l'emportent sur une approche unique très ambitieuse.

Cela dit, le GPT-3 semble tout à fait prêt à lutter contre le burnout et à aider les médecins avec un module de bavardage. Cela pourrait ramener la joie et l'empathie que vous obtiendriez d'une conversation avec vos médecins résidents à la fin de la journée, cette conversation qui vous aide à revenir sur terre à la fin d'une journée bien remplie. Aussi, il ne fait aucun doute que les modèles linguistiques en général vont s'améliorer à un rythme rapide, avec un impact positif non seulement sur les cas d'utilisation décrits ci-dessus mais aussi sur d'autres problèmes importants, tels que la structuration et la normalisation des informations ou les résumés de consultation automatiques.

Et chez Nabla, on y travaille !

Problème 1892

Docteur GPT-3 : hype ou réalité ?