シナリオ:放射線科医があなたの脳スキャン画像を見て、基底核に異常があると指摘します。基底核は、運動制御、学習、感情処理を司る脳の領域です。その名称は、脳幹に血液を供給する脳底動脈という脳の別の部位に少し似ていますが、放射線科医はこれらを混同しないように注意しています。脳卒中や脳幹の異常は、通常、脳幹とは全く異なる方法で治療されます。
さて、医師がAIモデルを使って読影していると想像してみてください。モデルは「基底核」に問題があると診断し、この2つの名称を混同して、実際には存在しない脳の領域を診断します。医師がこの間違いに気づいてスキャン画像を再確認してくれることを期待しますが、そうならない可能性もあります。
病院ではありませんが、「基底核」はGoogleのヘルスケアAIモデルMed-Geminiによって生成された実際のエラーです。 2024年に発表されたMed-Geminiを紹介する研究論文では、頭部CTスキャンのセクションに幻覚が含まれていましたが、Google社内では、その論文でも、それを発表したブログ投稿でも、誰もそれに気づきませんでした。AIの専門知識を持つ認定神経科医で研究者のブライアン・ムーア氏がこの間違いを指摘したところ、Googleは公式には認めず、ブログ投稿をひそかに修正したとThe Vergeに語っています。Googleはこの出来事を「basal ganglia(基底核)」の単純なスペルミスと呼んでいます。一部の医療専門家は、これは危険な誤りであり、医療AIの限界を示す例だと述べています。
Med-Geminiは、健康データの要約、放射線レポートの作成、電子医療記録の分析などができるAIモデルの集合体です。医師にその価値を示すことを目的としたこのプレプリント研究論文は、放射線科医が「見逃した」がAIが捉えた一連のスキャン異常を強調していました。その例の一つとして、Med-Geminiは「古い左脳底核梗塞」と診断しました。しかし、既に判明しているように、そのような事実は存在しません。
それから約1年が経ち、Med-Geminiの信頼できるテスタープログラムは新規参加者の受け入れを停止しました。これは、同プログラムが実際の医療現場で試験的にテストされていることを示唆していると考えられます。まだ初期段階の試験ですが、AIエラーのリスクは高まっています。Med-Geminiだけがエラーを起こしているわけではありません。そして、医師がどのように対応すべきかは明確ではありません。
「あなたが話していることは非常に危険です」と、51の病院と1,000以上の診療所を擁する医療システム、Providenceの最高医療情報責任者、モーリン・シャー氏はThe Vergeに語りました。彼はさらに、「たった2文字ですが、大きな問題です」と付け加えました。
Googleの広報担当者ジェイソン・フライデンフェルズ氏は声明の中で、The Vergeに対し、同社は医療コミュニティと提携してモデルのテストを行っており、モデルの限界については透明性を確保していると述べた。
フライデンフェルズ氏は、「システムは見逃された病変を確かに検出しましたが、それを説明する用語として誤った用語(basalではなくbasilar)を使用していました。そのため、ブログ投稿*で明確にしました」と述べた。さらに、「私たちはモデルの改善に継続的に取り組んでおり、幅広いパフォーマンス特性を厳密に検証しています。プロセスの詳細については、トレーニングと導入の実践をご覧ください」と付け加えた。
「よくある誤記」
2024年5月6日、Googleは最新のヘルスケアAIモデルスイートを華々しく発表しました。同社は「Med-Gemini」を「医療における大きな可能性を秘めた飛躍的な進歩」と位置付け、放射線科、病理学、皮膚科、眼科、ゲノミクスといった分野での実用化を謳いました。
Googleのブログ記事によると、これらのモデルは、テキス トラベル付きの匿名化された医療データを用いて、胸部X線写真、CTスライス、病理スライドなどの医療画像でトレーニングされました。同社によると、これらのAIモデルは「複雑な3Dスキャンを解釈し、臨床上の疑問に答え、最先端の放射線レポートを生成」できるとのことで、ゲノム情報から疾患リスクの予測にも役立つとさえ言われています。
ムーア氏は、著者らによる論文のプロモーションを早い段階で見て確認しました。彼は間違いに気づき、警戒しました。LinkedInでGoogleに報告し、著者らに直接連絡してその旨を伝えました。
ムーア氏が見たところ、GoogleはAIモデルの誤りの証拠をひそかに差し替えていました。最初のブログ投稿では「basilar ganglia(基底核)」という表現を「basal ganglia(基底核)」に修正しましたが、その他の変更はなく、論文自体にも変更はありませんでした。The Vergeが閲覧したやり取りの中で、Google Healthの従業員はムーア氏に返信し、この間違いはタイプミスだと述べました。
これに対し、ムーア氏はGoogleのひそかに編集されたことを公に非難しました。今回はGoogleが結果を元に戻し、「『basilar』は『basal』のよくある誤記であり、Med-Geminiはトレーニングデータから学習しましたが、レポートの意味は変わりません」と説明しました。
GoogleはLinkedInの公開コメントでこの問題を認め、再び「スペルミス」として軽視しました。
「ご指摘ありがとうございます!」と同社は述べ、「ブログ投稿の図を更新し、元のモデル出力を示しました。また、モデルが実際にどのように動作するかを示すことが重要であることは同意します。」
この記事の公開 時点では、研究論文自体には依然として誤りが含まれており、更新や訂正はありません。
誤字脱字なのか、幻覚なのか、あるいはその両方なのかは分かりませんが、このような誤りは、ヘルスケアAIが遵守すべき基準、そして一般向けのユースケースにいつリリースされるのかという、はるかに大きな問題を提起します。
「これらの誤字脱字やその他の幻覚の問題は、人間がそれらをレビューできるとは信じられないことです。」
「これらの誤字脱字やその他の幻覚の問題は、人間がそれらをレビューできるとは信じられないことです。ましてや、すべてのレベルでは信じられないことです。」とShah氏はThe Vergeに語っています。 「こうしたことは伝播します。あるツールの分析で、誰かが誤った病理学的評価を記したメモを書いていたことが分かりました。病理学的評価は癌陽性だったのに、(うっかり)陰性と書いてしまったのです。…しかし今、AIはそれらのメモをすべて読み取り、それを拡散させ、拡散させ、その誤ったデータに基づいて判断を下しています。」
Googleのヘルスケアモデルのエラーは依然として残っています。2か月前、GoogleはAIベースの放射線診断結果に特化した、より新しく高度なヘルスケアモデル「MedGemma」を発表しました。医療専門家は、AIモデルに質問する際に質問の言い回しを変えると、回答が異なり、不正確な結果につながる可能性があることに気付きました。
一例として、エモリー大学医学部放射線情報学部の准教授であるジュディ・ギチョヤ博士は、 MedGemma](https://zoom.us/rec/play/sOopZ3Pg1M-qCuuurHJ6wbKukq82c_20gGVRDmTbhiFHpO_3aYJoQODK4a73QqW0XdAaEtyFjeK2-1Ze.aVetSPh34KRLG6NA?eagerLoadZvaPages=sidemenu.billing.plan_management&accessLevel=meeting&canPlayFromShar e=true&from=share_recording_detail&continueMode=true&componentName=rec-play&originRequestUrl=https%3A%2F%2Fzoom.us%2Frec%2Fshare%2FPe-FvHJDfUAs3Z2laNzXr4hpRApxSR1oHvyJTV9lMdRv2z_GdazRI9iPgDgblW-c.U0MQjRRcASJM-Wxt) は、患者の肋骨のX線写真に関する問題について、詳細な情報とともに「こちらは患者[年齢][性別]のX線写真です。X線写真では何が見えますか?」と質問し、モデルは正しく問題を診断しました。システムに同じ画像を見せ、より簡単な質問「X線写真では何が見えますか?」をしたところ、AIは全く問題がないと回答しました。「このX線写真は、正常な成人の胸部を示しています」とMedGemmaは記しています。
別の例として、ギチョヤ氏はMedGemmaに対し、気腹症(横隔膜下のガス)を示すX線画像について質問しました。最初の質問ではシステムは正しく回答しました。しかし、クエリの文言がわずかに異なると、AIは複数の種類の診断結果を幻覚的に提示しました。
「問題は、私たちが実際にAIに疑問を抱くかどうかです」とシャー氏は言います。たとえAIシステムが医師と患者の会話を聞いて臨床記録を作成したり、医師自身の速記を翻訳したりする場合でも、幻覚のリスクがあり、それがさらなる危険につながる可能性があると彼は指摘します。AIが生成したテキストは正確であることが多いため、医療従事者がAIが生成したテキストを二重チェックする可能性は低いからです。
「私が『ASA 325 mg 1日1回』と書いた場合、『アスピリンを毎日325ミリグラム服用してください』など、患者が理解できるものに修正されるはずです」とシャー氏は言います。 「これを何度も繰り返すと、患者の部分を読み取らなくなります。ですから、もし幻覚を起こしたとしても、つまりASAが麻酔の標準的な評価だと勘違いしたとしても、気づかないでしょう。」
作話アラート
シャー氏は、AI業界が臨床的な側面を置き換えるのではなく、医療従事者の能力を拡張する方向に進むことを期待していると述べています。また、AI業界におけるリアルタイムの幻覚検知にも期待しています。例えば、あるAIモデルが別のAIモデルに幻覚リスクがないかチェックし、該当する部分をエンドユーザーに表示しないか、警告でフラグを立てるといったことです。
シャー氏は、「医療において、『作話』は認知症やアルコール 依存症で起こります。彼らは作り話をしているだけで、非常に正確に聞こえるので、その人が認知症だとは気づかないのです。そして、実際に話を聞いてみると、『ちょっと違う』と思うのです。まさにこれらのAIがやっていることです」と述べています。 「そのため、AIを使用しているシステムには、作話アラートを組み込んでいます。」
エモリー大学のヘルスケアAIイノベーション・トランスレーショナル・インフォマティクス研究所を率いるギチョヤ氏は、多くの大規模AI医療モデルと同様に、Med-Geminiの最新バージョンが研究環境で幻覚を起こすのを目にしたことがあると述べています。
「Med-Geminiは、事実を捏造する傾向があり、『わかりません』とは言いません。これは、医療のようなハイリスクな分野では非常に大きな問題です」とギチョヤ氏は言います。
彼女はさらに、「放射線科医のワークフローを変えて、『AIがレポートを生成し、それを読みます』と伝えようとしている人がいますが、そのレポートには多くの幻覚が含まれており、私たち放射線科医のほとんどはそのような方法では業務を遂行できません。そのため、たとえ人々が気づいていなくても、導入のハードルははるかに高くなると考えています。」と付け加えました。
スタンフォード大学医学部の准教授であり、AI医療教育ディレクターを務めるジョナサン・チェン博士は、「危険な」「危険」「不安定」といった適切な形容詞を探し、医療AIの現状をどう表現するかにたどり着いた。「多くのAIが臨床ケアにあまりにも急速に導入されつつある、非常に奇妙な転換期を迎えています」とチェン博士は語る。「まだ 成熟していないのです」。
「脳底神経節」問題については、「もしかしたらタイプミスかもしれませんし、意味のある違いかもしれません。これらはすべて、解明が必要な非常に現実的な問題です」とチェン博士は述べている。
医療業界の一部はAIツールの助けを切望しているが、導入前に適切な懐疑心を持つ必要があるとチェン博士は指摘する。おそらく最大の危険は、これらのシステムが時として間違っていることではなく、「脳底神経節」の閉塞が現実のものであることを告げる時、その信憑性と信頼性がどれほど高そうに聞こえるかにある、とチェン博士は指摘する。人間の医療記録には多くの誤りが潜んでいますが、AIはむしろ問題を悪化させる可能性があります。これは、自動化バイアスと呼ばれるよく知られた現象によるものです。自動化バイアスとは、人間が自己満足に陥ると、ほとんどの場合正しいシステムであっても、その誤りを見逃してしまうことです。AIがAIの作業をチェックするとしても、それでも不完全だと彼は言います。「医療に携わるとなると、不完全さは耐え難いものだと感じることがあります。」
「『人間と同じくらい高いところまで行けるなら、それで十分だ』と考える人もいるかもしれません。でも、私は全くそうは思いません。」
「自動運転車のアナロジーをご存知でしょう。『この車は何度もとてもスムーズに運転してくれたから、運転中に眠ってしまう』と。 「ちょっと待ってください、自分や他の人の命がかかっている時に、もしかしたらそれは正しいやり方ではないかもしれない、という感じです」とチェン氏は言い、「多くの助けや恩恵が得られると思いますが、同時に、もっと慎重に取り組めば起こるはずのない、非常に明白な間違いも起こるでしょう」と付け加えた。
チェン氏によると、AIに人間の介入なしに完璧に機能することを求めることは、「私たちが今享受できる恩恵をAIから得ることは決してできない」ことを意味する可能性があるという。「一方で、AIには可能な限り高い基準を設定するべきです。そして、AIが目指すべき、そして目指すべきさらに高い基準があると思います」。複数の生身の人間からセカンドオピニオンを得ることは依然として重要だ。
とはいえ、Googleの論文には50人以上の著者がおり、出版前に医療専門家による査読を受けた。なぜ誰もこの誤りに気づかなかったのかは明確ではない。Googleは、なぜ論文が見落とされたのかという質問に直接答えなかった。
デューク・ヘルスの主任データサイエンティスト、マイケル・ペンシーナ博士は、The Vergeに対し、メド・ジェミニのエラーはタイプミスというより幻覚だと「信じる可能性の方がはるかに高い」と語り、「問題は、改めて、それがどのような結果をもたらすのかということです」と付け加えた。ペンシーナ博士にとっての答えは、エラーを犯すことのリスクにある。そして、医療においては、そのリスクは深刻だ。「アプリケーションのリスクが高く、システムが自律的であればあるほど…証拠のハードルは高く設定する必要があります」とペンシーナ博士は言う。「そして残念ながら、AI開発の現状は、まさにワイルド・ウェストと言えるでしょう」。
「私の考えでは、AIは人間よりもはるかに高いエラーのハードルをクリアする必 要があります」とプロビデンスのシャー氏は言う。「もしかしたら、『人間と同じくらい高いエラー率を実現できれば、それで十分だ』と考える人もいるかもしれません」一瞬たりとも信じません。そうでなければ、人間に仕事を任せ続けるだけです。人間なら、どうやって話しかけて、『ねえ、このケースを一緒に見てみましょう。どうすれば違ったやり方ができたでしょうか?』と尋ねることができます。AIがそうしたら、どうするつもりですか?」