Report 6111

ChatGPTの医療診断の正確性は半分以下であることが、新たな研究で明らかになりました。

科学者たちは、この人工知能 (AI)チャットボットに、医療ウェブサイトMedscapeに掲載されている150件の症例研究を評価させたところ、2022年のリリース時にChatGPTに搭載されていたGPT 3.5が正しい診断を下した割合はわずか49%にとどまることを発見しました。

以前の研究では、チャットボットが米国医師免許試験（USMLE）に辛うじて合格できることが示されており、この研究結果は研究者によって「AIの成熟における注目すべきマイルストーン」と称賛されています。

しかし、7月31日にPLOS ONE誌に掲載された新たな研究で、科学者たちは、人間の判断を必要とする複雑な医療ケースにおいてチャットボットに頼ることに対して警告を発している。

「人々が恐怖を感じたり、混乱したり、あるいは単に医療を受けられない場合、自分に合わせて『オーダーメイド』の医療アドバイスを提供するツールに頼ってしまう可能性がある」と、オンタリオ州ウェスタン大学シューリック医科歯科大学の小児腎臓病専門医で、本研究の筆頭著者であるアムリット・キルパラニ博士はLive Scienceに語った。「医療界（そしてより広い科学界全体）として、私たちは一般の人々に、この点におけるこれらのツールの限界について積極的に啓蒙する必要があると考えています。まだ医師に取って代わるべきではありません。」

ChatGPTの情報提供能力は、学習データに基づいています。リポジトリCommon Crawlから収集された570ギガバイトのテキストデータは、2022年モデルに入力され、約3000億語に相当します。これらのデータは、書籍、オンライン記事、Wikipedia、その他のウェブページから取得されました。

AIシステムは、学習した単語のパターンを捉え、その単語に続く単語を予測することで、プロンプトや質問への回答を提供します。理論上は、これは医学生と、複雑な医学的質問に対する簡潔な回答を求める患者の両方にとって役立つはずですが、ボットが「幻覚」を起こす（回答を完全に捏造する）傾向があるため、医学的診断における有用性は限定的です。

ChatGPTの医学的アドバイスの精度を評価するために、研究者らは研修医の診断能力を試すことを目的とした、患者の病歴、身体検査の結果、検査室で撮影した画像などを含む150件の多様な症例研究をモデルに提示しました。チャットボットは4つの選択肢から1つを選択し、診断と治療計画を回答しました。研究者らは、その正確性と明瞭性を評価しました。

結果は冴えず、ChatGPTは医学的正確性に関して正解よりも不正解の方が多かったものの、完全で関連性のある結果を52%の確率で提供しました。それでも、チャットボットの全体的な精度は74%とはるかに高く、誤った多肢選択式回答をより確実に識別・除外できたことを示しています。

研究者らは、この低いパフォーマンスの理由の一つとして、AIが十分な規模の臨床データセットでトレーニングされておらず、複数の検査結果を処理できず、人間の医師ほど効果的に絶対的な判断を避けることができなかったことが挙げられます。

こうした欠点はあるものの、AIとチャットボットは、AIシステムが適切に監視され、その発言に適切な事実確認が伴う限り、患者や研修医の教育に依然として役立つ可能性があると研究者らは述べています。

「1995年頃の医学雑誌の出版物を振り返ると、『ワールド・ワイド・ウェブ』に関しても全く同じ議論が行われていたことがわかります。興味深いユースケースに関する新しい論文が発表された一方で、これが単なる流行り物なのではないかと懐疑的な論文もありました」とキルパラニ氏は述べています。「特にAIとチャットボットによって、医療界は最終的に、臨床上の意思決定を強化し、管理業務を効率化し、患者の関与を強化する大きな可能性があることに気づくだろうと思います。」

レポート 6111

ChatGPTは病状の診断には本当にひどい