Report 6224

医師が使用する人工知能（AI）ツールは、女性や少数民族の患者の健康状態を悪化させるリスクがあります。多くの大規模言語モデルがこれらの患者の症状を軽視していることを示す研究が増えているためです。

最近の一連の研究では、医療分野におけるAIモデルの導入が偏った医療判断につながり、西洋社会の様々な集団に既に存在する治療不足のパターンを悪化させる可能性があることが示されています。

米国と英国の主要大学の研究者による研究結果によると、法学修士（LLM）が開発した医療AIツールは、女性患者の症状の重症度を反映しない傾向があり、黒人やアジア人患者に対する「共感」も低いことが示唆されています。

これらの警告は、Microsoft、Amazon、OpenAI、Googleといった世界有数のAIグループが、世界中の逼迫した医療システムを支援するため、医師の負担軽減と治療の迅速化を目的とした製品の開発を急いでいる中で発せられています。

世界中の多くの病院や医師が、GeminiやChatGPTといったLLM（法学修士課程）に加え、NablaやHeidiといったスタートアップ企業のAI医療記録作成アプリも活用し、患者の診察記録の自動生成、医学的に重要な詳細の強調表示、臨床サマリーの作成を行っています。

マイクロソフトは6月、AIを活用した医療ツールを開発したことを発表しました。このツールは、複雑な病気の診断において人間の医師よりも4倍の精度を誇ると主張しています。

しかし、MITジャミールクリニックが6月に実施した調査では、OpenAIのGPT-4、MetaのLlama 3、そして医療に特化したLLMであるPalmyra-MedといったAIモデルが、女性患者に対して推奨するケアのレベルがはるかに低く、一部の患者は医療機関を受診せずに自宅で自己治療することを推奨していることが明らかになりました。

MITチームによる別の調査では、OpenAIのGPT-4などのモデルは、メンタルヘルスの問題でサポートを求める黒人やアジア人に対して、より配慮に欠ける回答を示すことが示されました。

これは、「モデルによって認識された人種のみに基づいて、一部の患者がはるかに少ない支援的指導を受ける可能性があることを示唆している」と、MITジャミール・クリニックの准教授、マルジー・ガセミ氏は述べています。

同様に、ロンドン・スクール・オブ・エコノミクスの調査によると、英国の地方自治体の半数以上がソーシャルワーカーの支援に使用しているGoogleのGemmaモデルは、ケースノートの作成と要約に使用された場合、男性の身体的および精神的問題と比較して女性の身体的および精神的問題が軽視されていることが明らかになりました。 MITジャミール・クリニックの准教授、マルジー・ガセミ氏。マルズィエ・ガセミ氏：「医療におけるモデルを、重要な医療格差の解消に再び焦点を当て始めることを願っています」© Jonathan Wiggs/Boston Globe/Getty Images

ガセミ氏のMITチームは、医療現場で使用されているAIモデルにおいて、誤字脱字、くだけた表現、または曖昧な表現を含むメッセージを持つ患者は、たとえ臨床内容が同じであっても、完璧にフォーマットされたコミュニケーションを持つ患者よりも、医療機関で使用されているAIモデルによって医療機関を受診しないようアドバイスされる可能性が7～9%高いことを発見しました。

これは、英語を母国語としない人や、テクノロジーの利用に抵抗がある人が不当な扱いを受けることにつながる可能性があります。

有害なバイアスの問題は、LLMの学習に使用されるデータに一部起因しています。GPT-4、Llama、Geminiなどの汎用モデルは、インターネットからのデータを使用して学習されるため、それらのデータソースからのバイアスが応答に反映されます。AI開発者は、モデルの学習後に安全策を追加することで、こうしたバイアスがシステムに浸透するのを抑制することもできます。

「Redditのサブフォーラムが健康に関する意思決定をアドバイスしている可能性がある状況であれば、そこは安全な場所ではないと思います」と、カリフォルニア大学サンフランシスコ校の非常勤教授であり、AI医療情報スタートアップ企業Open Evidenceの最高医療責任者を務めるトラビス・ザック氏は述べています。

昨年の研究で、ザック氏と彼のチームは、GPT-4が病状の人口統計学的多様性を考慮しておらず、特定の人種、民族、性別をステレオタイプ化する傾向があることを発見しました。

研究者たちは、AIツールは医療分野に既に存在する治療不足のパターンを助長する可能性があると警告しています。健康研究のデータはしばしば男性に大きく偏っており、例えば女性の健康問題は慢性的な資金不足と研究不足に直面しているからです。

OpenAIによると、多くの研究でGPT-4の旧モデルが評価されており、同社は発売以来精度を向上させてきたとのことです。同社は、特に健康に焦点を当て、有害または誤解を招く出力を削減するためのチームを編成しています。同社は、外部の臨床医や研究者とも協力し、モデルの評価、動作のストレステスト、リスクの特定に取り組んでいると述べた。

また、同グループは医師と共同で、医療分野における法学修士（LLM）の能力を評価するためのベンチマークも開発している。このベンチマークは、様々なスタイル、関連性、詳細度のユーザークエリを考慮に入れている。

Googleは、モデルのバイアス（偏り）を「極めて深刻に」受け止めており、機密性の高いデータセットをサニタイズし、バイアスや差別に対する安全策を構築できるプライバシー技術を開発していると述べた。

研究者たちは、AIにおける医療バイアスを軽減する一つの方法として、そもそも学習に使用すべきでないデータセットを特定し、より多様で代表的な医療データセットで学習させることを提案している。

ザック氏によると、米国の40万人の医師が患者の病歴を要約し、情報を検索するために利用しているOpen Evidenceは、医学雑誌、米国食品医薬品局（FDA）のラベル、健康ガイドライン、専門家のレビューを用いてモデルを学習させたという。すべてのAI出力には、出典の引用も付されている。

今年初め、ユニバーシティ・カレッジ・ロンドンとキングス・カレッジ・ロンドンの研究者たちは、英国のNHS（国民保健サービス）と提携し、「Foresight」と呼ばれる生成AIモデルを構築しました。

おすすめインタビュー：ラジ・ジェナ博士 AIが医師のがん治療を支援：「誇大宣伝の段階を脱した」

このモデルは、入院やCOVID-19ワクチン接種などの医療イベントに関する5,700万人の匿名化された患者データを用いて学習されました。Foresightは、入院や心臓発作などの健康状態を予測するように設計されました。

「全国規模のデータを用いることで、人口動態や疾病の観点から、イングランドの万華鏡のような状態を余すところなく再現することができます」と、UCLの名誉上級研究員であり、Foresightチームの主任研究者であるクリス・トムリンソン氏は述べています。完璧ではありませんが、トムリンソン氏は、より一般的なデータセットよりも良いスタートを切ったと述べています。

ヨーロッパの科学者たちは、英国バイオバンクの40万人の匿名化された医療記録に基づいて、数十年先の疾患感受性を予測するDelphi-2Mと呼ばれるAIモデルも訓練しました。

しかし、これほど大規模な実際の患者データを扱う場合、プライバシーが問題となることがよくあります。NHS Foresightプロジェクトは6月に一時停止されました。これは、英国医師会と英国王立一般開業医協会が、モデルの訓練に機密性の高い医療データを使用していたとして提出したデータ保護に関する苦情を英国情報コミッショナー事務局が検討できるようにするためです。

さらに、専門家はAIシステムがしばしば「幻覚」を起こしたり、答えをでっち上げたりすると警告しており、これは医療の分野では特に有害となる可能性があります。

しかし、MITのガセミ氏は、AIは医療に大きな利益をもたらしていると述べています。「私の希望は、医療におけるモデルが、医師がすでにかなり得意としているタスクのパフォーマンスに少しでも余分なものを加えるのではなく、重要な健康格差の解消に焦点を合わせ始めることです。」

レポート 6224

AI医療ツールが女性や少数民族の症状を軽視していることが判明