Report 6829

ChatGPT affirme désormais pouvoir répondre à des questions personnelles sur votre santé grâce aux données de votre bracelet connecté et de vos dossiers médicaux. La nouvelle application ChatGPT Health prétend vous aider à « comprendre les tendances sur la durée – et pas seulement les épisodes de maladie – pour que vous soyez mieux informé ».

Comme beaucoup d'utilisateurs d'Apple Watch, je me suis longtemps demandé ce que dix ans de données pourraient révéler sur moi. Je me suis donc inscrit sur une liste d'attente et j'ai autorisé ChatGPT à accéder aux 29 millions de pas et aux 6 millions de mesures de fréquence cardiaque enregistrées dans mon application Santé. J'ai ensuite demandé au bot d'évaluer ma santé cardiaque.

Résultat : un zéro pointé.

Paniqué, je suis allé courir. J'ai ensuite transmis le rapport de ChatGPT à mon médecin.

Est-ce que j'ai un zéro pointé ? « Non », m'a répondu mon médecin. En réalité, mon risque d'infarctus est tellement faible que mon assurance ne prendrait probablement même pas en charge un test d'aptitude cardio-vasculaire supplémentaire pour réfuter les conclusions de l'intelligence artificielle.

J'ai également montré les résultats au cardiologue Eric Topol, du Scripps Research Institute, expert en longévité et en potentiel de l'IA en médecine. « C'est sans fondement », a-t-il déclaré. « Ce n'est pas un outil pour donner un avis médical. »

L'IA recèle un immense potentiel pour révéler des informations médicales précieuses et améliorer l'accès aux soins. Cependant, lorsqu'il s'agit de votre bracelet connecté et de certains dossiers médicaux, le nouveau Dr ChatGPT semble improviser. Cela s'inscrit dans une tendance inquiétante : des entreprises spécialisées en IA lancent des produits défectueux, inefficaces ou même dangereux. Il va de soi que la santé des individus est une priorité. Tout produit, même en version bêta, prétendant fournir des informations sur la santé personnelle ne devrait pas être aussi mal informé.

Quelques jours après l'arrivée de ChatGPT Health, son concurrent Anthropic a lancé Claude for Healthcare (https://www.anthropic.com/news/healthcare-life-sciences), qui promet lui aussi d'aider les utilisateurs à « détecter des tendances dans leurs indicateurs de forme et de santé ». Toute personne disposant d'un compte payant peut importer ses données Apple Health et Android Health Connect dans le chatbot. Claude a attribué la note C à ma santé cardiaque, se basant sur une analyse que Topol avait jugée discutable.

OpenAI et Anthropic affirment que leurs bots ne peuvent ni remplacer les médecins ni établir de diagnostic, et incluent des avertissements contextuels. Pourtant, les deux produits ont fourni sans hésiter une analyse détaillée de ma santé cardiaque. (Le Washington Post a un partenariat de contenu avec OpenAI.)

Les entreprises indiquent également que leurs bots de santé sont en phase de test préliminaire, sans préciser comment elles comptaient améliorer leur capacité à fournir une analyse personnalisée des données corporelles. Apple affirme n'avoir collaboré directement avec aucune de ces deux sociétés d'IA sur ces produits.

Plus j'utilisais ChatGPT Health, plus la situation empirait.

Comment ChatGPT a mal interprété mes graphiques

Le principe même de ChatGPT Santé repose sur une confiance aveugle : confier ses informations de santé les plus intimes à une entreprise d'IA avide de données. Il est légitime de se méfier de la protection de la vie privée liée à l'IA.

OpenAI affirme que son mode Santé prend des mesures supplémentaires pour protéger votre vie privée : vos données ne seront pas utilisées pour entraîner son IA ni mélangées à d'autres conversations, et elles seront cryptées. Cependant, cela reste une promesse en l'air : ChatGPT n'étant pas un professionnel de santé, il n'est pas soumis à la loi fédérale américaine sur la confidentialité des données de santé, connue sous le nom de HIPAA.

Après avoir connecté ChatGPT à Apple Santé, j'ai demandé au bot de me faire part de ses recommandations de santé et de me signaler tout problème. Il m'a conseillé de consulter mon médecin au sujet d'une « augmentation notable » de ma fréquence cardiaque au repos, tout en me félicitant pour la qualité de mon sommeil et mon niveau d'activité.

J'ai ensuite demandé au bot de me « donner une note simple pour ma santé cardiaque et ma longévité ». C'est là qu'il m'a attribué un F.

J'ai demandé à ChatGPT : « Pensez-vous vraiment que ma santé cardiaque et ma longévité méritent une note aussi basse ? »

Il a répondu : « En bref : non. Je ne pense pas que vous soyez un cas désespéré, et je suis désolé que la note brute vous ait paru si sévère. Il s'agissait d'une évaluation sommaire, basée uniquement sur les données de l'appareil. » Il a ajouté qu'il pourrait me donner une note plus pertinente si je connectais également mon dossier médical.

Je l'ai donc fait et lui ai redemandé de me « donner une note simple (de A à F) pour ma santé cardiovasculaire au cours des dix dernières années ». La note est passée à D.

Topol était consterné quand je lui ai montré l'analyse du bot.

Bien que ChatGPT ait accès à mon poids, ma tension artérielle et mon taux de cholestérol, l'application a fondé une grande partie de son évaluation négative sur une mesure de l'Apple Watch appelée VO2 max, soit la quantité maximale d'oxygène que le corps peut consommer pendant l'effort. Apple indique recueillir une « estimation » de la VO2 max, mais la mesure précise nécessite un tapis roulant et un masque. Apple affirme que ses mesures de la condition cardiovasculaire ont été validées, mais des chercheurs indépendants ont constaté que ces estimations peuvent être sous-estimées, en moyenne de 13 %.

L'évaluation de ChatGPT a également mis l'accent sur une mesure de l'Apple Watch appelée variabilité de la fréquence cardiaque, que Topol a jugée très imprécise. « Il est fortement déconseillé de se baser sur cette mesure comme indicateur principal », a-t-il déclaré.

Lorsque j'ai demandé à ChatGPT de tracer l'évolution de ma fréquence cardiaque sur dix ans, j'ai constaté un autre problème : ma fréquence cardiaque au repos présentait d'importantes variations à chaque changement d'Apple Watch, ce qui suggère que les appareils n'effectuaient peut-être pas un suivi uniforme. (Apple affirme améliorer constamment ces mesures.) Pourtant, une fois de plus, ChatGPT a interprété une donnée imprécise comme un indicateur de santé fiable.

La note C attribuée par Claude était moins alarmante, mais elle manquait également de rigueur concernant les données relatives à la VO2 max (notées D+). Anthropic affirme qu'il n'existe pas de version de Claude spécifiquement conçue pour la santé et que son outil ne peut fournir qu'un contexte général aux données de santé, et non une analyse clinique personnalisée.

Mon médecin traitant m'a indiqué que pour examiner en profondeur ma santé cardiaque, il était nécessaire de réanalyser mon profil lipidique. Il m'a donc prescrit une nouvelle prise de sang incluant la lipoprotéine (a), un facteur de risque de maladies cardiovasculaires. Ni ChatGPT Health ni Claude n'ont évoqué la possibilité de réaliser ce test.

Une analyse incohérente

Ces deux entreprises d'IA précisent que leurs produits de santé ne sont pas conçus pour réaliser des évaluations cliniques. Ils visent plutôt à vous aider à préparer une consultation médicale ou à vous conseiller sur votre programme d'entraînement.

Je n'ai pas demandé à leurs robots si j'avais une maladie cardiaque. Après avoir fourni autant de données de santé personnelles, je leur ai posé une question assez évidente : comment vais-je ?

De plus, si ChatGPT et Claude sont incapables d'évaluer précisément votre santé cardiaque, pourquoi les bots n'ont-ils pas simplement indiqué : « Désolé, je ne peux pas faire cela » ?

Les bots ont refusé d'estimer mon espérance de vie.

J'ai découvert un autre problème au fil du temps : lorsque j'ai posé à nouveau la même question sur la longévité cardiaque, ma note est soudainement passée à C. J'ai répété l'opération plusieurs fois, observant la note osciller entre F et B.

Au cours des conversations, ChatGPT oubliait constamment des informations importantes me concernant, notamment mon sexe, mon âge et certains signes vitaux récents. Il avait accès à mes analyses sanguines récentes, mais ne les utilisait pas toujours dans son analyse.

Ce type d'aléatoire est « totalement inacceptable », a déclaré Topol. « Les personnes qui utilisent ce système vont s'inquiéter sérieusement pour leur santé. Cela pourrait aussi donner aux personnes en mauvaise santé l'illusion que tout ce qu'elles font est parfait. »

OpenAI affirme ne pas avoir pu reproduire les fluctuations importantes que j'ai observées. Il est indiqué que ChatGPT peut pondérer légèrement différemment les diverses sources de données connectées d'une conversation à l'autre lors de l'interprétation de vastes ensembles de données de santé. L'entreprise précise également travailler à stabiliser les réponses avant que ChatGPT Health ne soit accessible au-delà de sa liste d'attente.

« Le lancement de ChatGPT Health avec un accès sur liste d'attente nous permet d'apprendre et d'améliorer l'expérience utilisateur avant sa mise à disposition générale », a déclaré Ashley Alexander, vice-présidente d'OpenAI, dans un communiqué.

Lorsque j'ai répété la même question sur Claude, ma note a varié entre C et B-. Anthropic a indiqué que les chatbots présentent une variabilité inhérente dans leurs résultats.

Faut-il confier sa santé à un bot ?

J'ai apprécié utiliser ChatGPT Health pour créer des graphiques à partir des données de mon Apple Watch et poser des questions plus précises, comme l'évolution de mon niveau d'activité après la naissance de mes enfants.

OpenAI affirme que plus de 230 millions d'utilisateurs posent déjà chaque semaine des questions sur la santé et le bien-être à ChatGPT. Pour ces personnes, une manière plus confidentielle d'importer des informations et de discuter de leur corps est une amélioration bienvenue.

Mais la question est : devrions-nous nous tourner vers ce bot pour obtenir ces réponses ? OpenAI affirme avoir collaboré avec des médecins pour améliorer ses réponses en matière de santé. Lors d'un précédent test de la qualité des réponses de ChatGPT à de véritables questions médicales avec un médecin renommé, les résultats allaient d'excellents à potentiellement dangereux. Le problème est que ChatGPT répond généralement avec une telle assurance qu'il est difficile de distinguer les bons des mauvais résultats.

Les entreprises de chatbots surestiment peut-être leur capacité à répondre à des questions de santé personnalisées, mais rien ne semble pouvoir les freiner. Plus tôt ce mois-ci, le commissaire de la FDA, Marty Makary, a déclaré que le rôle de l'agence était de « laisser faire les choses en tant que régulateur » afin de favoriser l'innovation en IA. Il a clairement indiqué que l'IA ne devait pas formuler d'allégations médicales ou cliniques sans examen de la FDA, mais ChatGPT et Claude insistent sur le fait qu'ils ne font que fournir des informations.

Des scientifiques travaillent depuis des années à l'analyse de données corporelles à long terme pour prédire les maladies. (En 2020, j'ai participé à une étude de ce type avec la bague Oura.) Ce qui rend ce genre d'IA si complexe, m'a expliqué Topol, c'est qu'il faut tenir compte du bruit et des faiblesses des données, et les relier à l'état de santé final des individus. Pour y parvenir, il faut un modèle d'IA dédié, capable de connecter toutes ces couches de données.

Alexander, d'OpenAI, a indiqué que ChatGPT Health avait été conçu avec un code personnalisé qui lui permet d'organiser et de contextualiser les données de santé personnelles. Mais cela ne revient pas à être entraîné à extraire une analyse personnelle précise et utile à partir des données complexes stockées dans les Apple Watch et les dossiers médicaux.

Topol s'attendait à mieux. « On aurait pu penser qu'ils auraient développé quelque chose de beaucoup plus sophistiqué, en phase avec la pratique médicale et les connaissances médicales », a-t-il déclaré. « Pas quelque chose comme ça. C'est très décevant. »

Problème 6829

J'ai laissé ChatGPT analyser dix ans de données de mon Apple Watch. Ensuite, j'ai appelé mon médecin.

Comment ChatGPT a mal interprété mes graphiques

Une analyse incohérente