Report 6829

ChatGPTは現在、フィットネストラッカーと医療記録のデータを活用して、健康に関する個人的な質問に答えることができると発表しています。新しいChatGPT Healthは、「病気の瞬間だけでなく、時間の経過に伴うパターンを理解し、より多くの情報に基づいて行動できるようになる」と主張しています。

毎日Apple Watchを愛用している多くの人々と同様に、私は10年間分のデータが私についてどのようなことを明らかにするのか、長い間疑問に思っていました。そこで簡単な待機リストに登録し、ChatGPTにApple Healthアプリに保存されている2,900万歩と600万回の心拍測定値へのアクセスを許可しました。そして、ボットに私の心臓の健康状態を評価するように依頼しました。

結果はFでした。

私はパニックになり、ランニングに出かけました。そして、ChatGPTのレポートをかかりつけの医師に送りました。

私はFですか？「いいえ」と医師は言いました。実際、私の心臓発作リスクは非常に低いので、人工知能の誤りを証明するための追加の心肺機能検査の費用さえ保険会社が負担してくれる可能性は低いでしょう。

また、私は結果をスクリプス研究所の心臓専門医であるエリック・トポル氏にも見せました。彼は長寿と医療におけるAIの両方の専門家です。「根拠がない」と彼は言いました。「これは医学的なアドバイスを受けるにはまだ早い」

AIは、医療に関する知見を解き放ち、医療へのアクセスを拡大する大きな可能性を秘めています。しかし、フィットネストラッカーや健康記録に関しては、新しいDr. ChatGPTがなんとか対応できているようです。これは憂慮すべき傾向に当てはまります。AI企業が壊れている、期待通りの成果が得られない、さらには危険な製品をリリースしているのです。人々の健康が実際に重要であることは言うまでもありません。個人の健康に関する洞察を提供すると主張する製品は、たとえ「ベータ版」と表示されているものであっても、これほど無知であってはなりません。

ChatGPT Healthが登場した数日後、AIのライバルであるAnthropicがClaude for Healthcareをリリースしました。これも同様に、人々が「フィットネスと健康指標全体のパターンを検出する」のを支援すると謳っています。有料アカウントを持つ人なら誰でも、Apple HealthとAndroid Health Connectのデータをチャットボットにインポートできます。Claudeは、Topolが疑問視したのと同じ分析の一部に基づいて、私の心臓の健康状態をCと評価しました。

OpenAIとAnthropicは、自社のボットは医師の代わりをしたり、診断を提供したり、文脈に応じた免責事項を記載したりすることはできないと述べています。しかし、両社とも私の心臓の健康状態について詳細な分析を提供してくれました。（ワシントン・ポストはOpenAIとコンテンツ提携を結んでいます。）

両社はまた、自社のヘルスボットは初期テスト段階にあると述べていますが、身体データの個人分析を提供する能力をどのように改善する予定かについては明言しませんでした。Appleは、これらの製品に関してどちらのAI企業とも直接協力していないと述べています。

ChatGPT Healthを使い続けるほど、状況は悪化していきました。

ChatGPTが私のチャートを誤読した経緯

ChatGPT Healthの前提は、データ消費型のAI企業にあなたの最もプライベートな健康情報を渡すという、いわば「飛躍的な信頼」です。人々がAIのプライバシーについて慎重になるのは当然です。

OpenAIは、Healthモードはプライバシー保護のために追加の対策を講じていると述べています。あなたのデータはAIのトレーニングに使用されず、他のチャットと混在させることもなく、データは暗号化されます。しかし、これは実質的には小指を立てた約束です。ChatGPTは医療提供者ではないため、HIPAAとして知られる連邦医療プライバシー法の対象外です。

ChatGPTをApple Healthに接続した後、私はボットに健康に関する推奨事項を共有し、危険信号があれば指摘するように依頼しました。安静時の心拍数が「著しく上昇」しているので医師に相談するように言われましたが、睡眠と活動量については褒められました。

それからボットに「心臓の健康と寿命について簡単なスコアを出して」と頼みました。すると、なんとFの評価が下されました。

ChatGPTに尋ねました。「私の心臓の健康と寿命が本当に不合格に値するとお考えですか？」

ChatGPTはこう返しました。「端的に言うと、いいえ。あなたはもうダメだとは思っていません。文字で書かれた評価が厳しすぎると感じたのは残念です。デバイスのみのデータから得られた、率直でヒューリスティックな判断でした」。さらに、かかりつけ医が保管している医療記録も接続すれば、より有用なスコアが算出できるとのことでした。

そこで私はそうし、さらに「過去10年間の私の心臓血管の健康状態について、簡単なスコア（A～F）を出して」と再度頼みました。すると、なんとDまで上がりました。

私がボットの分析結果を見せると、トポルは愕然としました。

ChatGPTは私の体重、血圧、コレステロール値にアクセスできるにもかかわらず、Apple WatchのVO2 Max（運動中に体が消費できる最大酸素量）の測定値に基づいて否定的な評価を下しました。AppleはVO2 Maxの「推定値」を収集していると述べていますが、実際にはトレッドミルとマスクが必要です。Appleは、同社の有酸素運動フィットネス指標は検証済みとしていますが、独立した研究者らが、これらの推定値は平均13%も低くなる可能性があることを発見しました。

ChatGPTの評価では、Apple Watchの心拍変動という指標も重視されていましたが、Topol氏によると、この指標には曖昧さがかなりあるとのことでした。「これを主な指標として使うのは絶対に避けるべきです」と彼は言いました。

ChatGPTに10年間の心拍数をグラフ化してもらったところ、別の問題に気づきました。Apple Watchを新しくするたびに安静時の心拍数が大きく変動しており、デバイスが同じように計測していない可能性があることを示唆していました（Appleはこれらの測定値を継続的に改善していると説明しています）。しかし、ここでもChatGPTは曖昧なデータポイントを明確な健康信号のように扱っていました。

Claude氏のC評価は私にとってそれほどパニックになるほどではありませんでしたが、VO2 Maxデータ（D+と評価）については十分に批判的ではありませんでした。 Anthropic社によると、Claudeには健康に特化したバージョンは存在せず、健康データに関する一般的なコンテキストを提供することしかできず、個人に合わせた臨床分析は提供できないとのことです。

私のかかりつけ医は、私の心臓の健康状態を詳しく調べるためには脂質を再度検査する必要があると言い、心臓病の危険因子であるリポタンパク質(a)を含む血液検査を再度指示しました。ChatGPT HealthもClaudeも、この検査を行うことを提案したことはありません。

不安定な分析

両AI企業は、自社の健康関連製品は臨床評価を提供することを目的として設計されているわけではないと述べています。むしろ、医師の診察を受ける準備をしたり、運動習慣の進め方についてアドバイスを得たりするためのものだとしています。

私は彼らのボットに心臓病があるかどうか尋ねませんでした。膨大な個人の健康データをアップロードした後、ごく当然の質問をしたのです。「私の状態はどうですか？」

さらに、ChatGPTとクロードがあなたの心臓の健康状態を正確に評価できないのであれば、なぜボットは「申し訳ありませんが、できません」と言わなかったのでしょうか？

ボットは、私が何歳で死亡するかを推定することは拒否しました。

時間をかけて発見した別の問題もありました。心臓の寿命に関する同じ質問をもう一度試してみたところ、突然スコアがCに上がってしまったのです。私は何度も質問を繰り返しましたが、スコアはFとBの間を揺れ動きました。

会話の中で、ChatGPTは私の性別、年齢、最近のバイタルサインなど、重要な情報を忘れ続けました。最近の血液検査結果にはアクセスできましたが、分析に使用しないこともありました。

このようなランダム性は「全く受け入れられない」とトポル氏は述べています。「このようなことをする人は、自分の健康状態について非常に不安になるでしょう。また、逆に、健康状態が悪い人に、自分がやっていることはすべて素晴らしいという誤った認識を与えてしまう可能性もあります。」

OpenAIは、私が見たような激しい変動を再現できなかったと述べています。ChatGPTは、大規模な健康データセットを解釈する際に、接続された様々なデータソースの重み付けを、会話ごとにわずかに異なる可能性があると述べています。また、ChatGPT Healthが待機リストを超えて利用可能になる前に、応答をより安定したものにするための取り組みも進めているとのことです。

OpenAIの副社長であるアシュリー・アレクサンダー氏は声明で、「ChatGPT Healthを待機リストへのアクセスで開始することで、広く利用可能になる前に、ユーザーエクスペリエンスを学習し、改善することができます」と述べています。

Claudeで同じクエリを繰り返したところ、私のスコアはCからB-の間で変動しました。Anthropicは、チャットボットの出力には固有のばらつきがあると述べています。

健康に関する質問をボットに任せるべきでしょうか？

私はChatGPT Healthを使って、Apple Watchのデータをグラフ化したり、出産後に活動レベルがどのように変化したかなど、より具体的な質問をしたりするのが気に入りました。

OpenAIによると、すでに毎週2億3000万人以上のユーザーがChatGPTの健康やウェルネスに関する質問をしています。こうした人々にとって、よりプライベートな方法で情報をインポートし、自分の体についてチャットできることは、歓迎すべき改善です。

しかし、問題は、これらの回答を得るためにこのボットに頼るべきかどうかです。OpenAIは、健康に関する回答を改善するために医師と協力してきたと述べています。以前、一流の医師と実際の医療に関する質問に対するChatGPTの回答品質をテストした際、結果は「非常に優れている」から「潜在的に危険な」まで様々でした。問題は、ChatGPTが通常、非常に自信を持って回答するため、良い結果と悪い結果を見分けるのが難しいことです。

チャットボット企業は、パーソナライズされた健康に関する質問に答える能力を過大評価しているかもしれませんが、それを止めることはほとんど不可能です。今月初め、食品医薬品局（FDA）のマーティ・マカリー長官は、AIイノベーションを促進するために「規制当局として邪魔にならないようにする」ことが同局の役割だと述べた。マカリー長官は、FDAの審査なしにAIが「医学的または臨床的な主張」を行うことには一線を画したが、ChatGPTとクロード両氏は、情報提供に過ぎないと主張している。

科学者たちは長年にわたり、長期的な身体データを分析して病気を予測することに取り組んできた。（2020年に、私はOura Ringを使ったそのような研究に参加しました。）Topol氏によると、この種のAIが非常に難しいのは、データ内のノイズや弱点を考慮し、それを人々の最終的な健康状態と結び付ける必要があるからだ。これを正しく行うには、これらすべてのデータ層を結び付けることができる専用のAIモデルが必要だ。

OpenAIのAlexander氏によると、ChatGPT Healthは、個人の健康データを整理し、文脈化するのに役立つカスタムコードを使用して構築されているという。しかし、これはApple Watchや医療カルテに保存されている複雑なデータから、正確で有用な個人分析を抽出するように訓練されることとは異なる。

Topol氏はもっと多くのことを期待していた。「彼らは、医療の実践や医療の知識基盤に沿った、はるかに洗練されたものを開発するだろうと思っていた」とTopol氏は述べた。「こんなものではなかった。非常に残念だ。」

レポート 6829

ChatGPTに10年間分のApple Watchのデータを分析してもらい、それからかかりつけの医師に電話しました。

ChatGPTが私のチャートを誤読した経緯

不安定な分析

健康に関する質問をボットに任せるべきでしょうか？