Report 4241

サンフランシスコ（AP通信）---テクノロジーの巨人OpenAIは、人工知能を搭載した同社の文字起こしツールWhisperが「人間レベルの堅牢性と正確性」を備えていると宣伝している。

しかし、Whisperには大きな欠陥がある。10人以上のソフトウェアエンジニア、開発者、学術研究者へのインタビューによると、Whisperはテキストの塊や文章全体を捏造する傾向がある。これらの専門家によると、捏造されたテキスト（業界では幻覚と呼ばれる）には、人種差別的なコメント、暴力的なレトリック、さらには想像上の医療処置が含まれる可能性がある。

専門家によると、Whisperは世界中の多くの業界でインタビューの翻訳や文字起こし、人気の消費者向けテクノロジーのテキスト生成、動画の字幕作成に使用されているため、このような捏造は問題である。

さらに懸念されるのは、OpenAIが「高リスク領域」ではこのツールを使用すべきではないと警告しているにもかかわらず、Whisperベースのツールを患者の医師との診察内容を書き起こすために利用しようとする医療センターの医療センターの急ぎだ、と研究者らは述べた。

問題の全容を把握するのは難しいが、研究者やエンジニアらは仕事でWhisperの幻覚に頻繁に遭遇していると述べた。たとえば、公開会議の調査を行っているミシガン大学研究者は、モデルの改善に取り組む前に、検査した音声転写の 10 件中 8 件に幻覚が見つかったと述べています。

機械学習エンジニアは、分析した 100 時間を超える Whisper 転写の約半分に幻覚が最初に見つかったと述べています。3 人目の開発者は、Whisper で作成した 26,000 件の転写のほぼすべてに幻覚が見つかったと述べています。

この問題は、録音が適切で短い音声サンプルでも発生します。コンピューター科学者による最近の研究では、調査した 13,000 件を超えるクリアな音声スニペットで 187 件の幻覚が見つかりました。

研究者によると、この傾向により、数百万件の録音で数万件の不完全な転写が発生することになります。

こうしたミスは、特に病院の環境では「非常に重大な結果」をもたらす可能性があると、昨年までバイデン政権でホワイトハウスの科学技術政策局を率いていたアロンドラ・ネルソン氏は述べた。

「誤診は誰も望んでいません」と、ニュージャージー州プリンストン高等研究所の教授であるネルソン氏は述べた。「もっと高い基準を設けるべきです」。

ウィスパーは、聴覚障害者や難聴者向けのクローズドキャプションの作成にも使用されている。聴覚障害者や難聴者は、特に誤訳のリスクが高い人々だ。聴覚障害者や難聴者は、「他のすべてのテキストの中に隠れている」捏造を識別する方法がないからだ、と、聴覚障害者でギャロデット大学のテクノロジーアクセスプログラムを監督するクリスチャン・フォーグラー氏は述べた。

OpenAI に問題解決を要請

このような幻覚が蔓延していることから、専門家、擁護者、元 OpenAI 従業員は連邦政府に AI 規制を検討するよう求めている。OpenAI は少なくともこの欠陥に対処する必要があると彼らは述べた。

「同社が優先する意思があれば、これは解決できそうだ」と、同社の方向性に対する懸念から 2 月に OpenAI を辞めたサンフランシスコを拠点とする研究エンジニアのウィリアム・サンダース氏は述べた。「これを世に出し、人々がそれができることに自信過剰になり、他のすべてのシステムに統合してしまうのは問題だ」

OpenAI の広報担当者は、同社は幻覚を減らす方法を継続的に研究しており、研究者の発見に感謝していると述べ、OpenAI はモデルの更新にフィードバックを取り入れていると付け加えた。

ほとんどの開発者は、文字起こしツールは単語のスペルミスやその他のエラーを起こすと想定しているが、エンジニアや研究者は、Whisper ほど AI を利用した文字起こしツールが幻覚を起こすのは見たことがないと述べている。

Whisper の幻覚

このツールは、OpenAI の主力チャットボット ChatGPT の一部のバージョンに統合されており、世界中の何千もの企業にサービスを提供している Oracle と Microsoft のクラウドコンピューティングプラットフォームに組み込まれている。また、テキストを複数の言語に文字起こしして翻訳するためにも使用されている。

先月だけでも、Whisper の最新バージョンの 1 つが、オープンソースの AI プラットフォーム HuggingFace から 420 万回以上ダウンロードされた。同社の機械学習エンジニアである Sanchit Gandhi 氏は、Whisper は最も人気のあるオープンソースの音声認識モデルであり、コールセンターから音声アシスタントまであらゆるものに組み込まれていると述べた。

コーネル大学のアリソン・コーネケ教授とバージニア大学のモナ・スローン教授は、カーネギーメロン大学がホストする研究リポジトリであるトークバンクから入手した数千の短い断片を調べた。彼らは、話者が誤解されたり誤って伝えられたりする可能性があるため、幻覚の約40％が有害または懸念されるものであると判断した。

彼らが発見した例では、話者は「彼、少年は、正確にはわかりませんが、傘を取ろうとしていました」と言った。

しかし、文字起こしソフトウェアは次のように付け加えた。「彼は十字架の大きな破片と小さな破片を取った...彼はテロナイフを持っていなかったはずなので、多くの人を殺した」

別の録音の話者は「他に2人の少女と1人の女性」と述べた。ウィスパーは人種に関する余計なコメントをでっち上げ、「黒人の少女2人と女性1人」を追加した。

3つ目の書き起こしでは、ウィスパーは「過剰活性化抗生物質」と呼ばれる存在しない薬をでっち上げた。

研究者はウィスパーや同様のツールが幻覚を起こす理由を確信していないが、ソフトウェア開発者は、作り話は一時停止、バックグラウンドサウンド、または音楽が流れている最中に起こる傾向があると述べた。

OpenAIはオンライン開示で、ウィスパーを「正確さの欠陥が結果に顕著な欠陥をもたらす可能性がある意思決定のコンテキスト」で使用しないよう推奨した。

医師の診察の書き起こし

この警告にもかかわらず、病院や医療センターはウィスパーを含む音声テキスト変換モデルを使用して医師の診察中に話された内容を書き起こし、医療従事者がメモを取ったりレポートを書いたりする時間を減らすことを止めていない。

ミネソタ州のマンケート・クリニックやロサンゼルス小児病院など、3万人以上の臨床医と40の医療システムが、フランスと米国にオフィスを持つNablaが開発したWhisperベースのツールを使い始めている。

Nablaの最高技術責任者マーティン・レイソン氏によると、このツールは医療用語に合わせて微調整されており、患者のやり取りを書き起こして要約する。

同社幹部は、Whisperが幻覚を引き起こす可能性があることを認識しており、その問題に対処していると述べた。

Nablaのツールは「データ安全上の理由」で元の音声を消去するため、AIが生成したNablaの書き起こしを元の録音と比較することは不可能だとレイソン氏は述べた。

Nablaによると、このツールは推定700万件の診療記録を書き起こすために使用されているという。

元OpenAIエンジニアのサンダース氏は、トランスクリプトが二重チェックされていなかったり、臨床医が録音にアクセスして正確性を確認できない場合、元の音声を消去することは心配なことかもしれないと述べた。

「グラウンドトゥルースを取り除けば、間違いを見つけることはできません」と彼は述べた。

ナブラ氏は、完璧なモデルなど存在せず、現在、医療従事者はトランスクリプトされたメモを迅速に編集して承認する必要があるが、これは変更される可能性があると述べた。

プライバシーの懸念

患者と医師の面談は機密事項であるため、AIが生成したトランスクリプトが患者にどのような影響を与えているかを知ることは難しい。

カリフォルニア州議会議員のレベッカ・バウアー・カハン氏は、今年初めに子供の1人を医師のところに連れて行き、OpenAIの最大の投資家が運営するクラウドコンピューティングシステムであるMicrosoft Azureを含むベンダーと相談音声を共有する許可を求める医療ネットワークから提供された書類に署名することを拒否したと述べた。バウアー・カハン氏は、このような個人的な医療会話がハイテク企業に共有されることを望んでいなかったと述べた。

「この発表では、営利企業にはこれを共有する権利があると明確に述べられていた」と、州議会でサンフランシスコ郊外の一部を代表する民主党員であるバウアー・カハン氏は述べた。「私は『絶対にだめだ』と思った」

ジョン・ミューア・ヘルスの広報担当者ベン・ドリュー氏は、同医療制度は州および連邦のプライバシー法に準拠していると述べた。

レポート 4241

関連インシデント

インシデント 8271 Report
AI Transcription Tool Whisper Reportedly Inserting Fabricated Content in Medical Transcripts

研究者らは、病院で使用されているAI搭載の文字起こしツールが、これまで誰も言わなかったことを発明していると言う

OpenAI に問題解決を要請

Whisper の幻覚

医師の診察の書き起こし

プライバシーの懸念

レポート 4241

関連インシデント

インシデント 8271 ReportAI Transcription Tool Whisper Reportedly Inserting Fabricated Content in Medical Transcripts

研究者らは、病院で使用されているAI搭載の文字起こしツールが、これまで誰も言わなかったことを発明していると言う

OpenAI に問題解決を要請

Whisper の幻覚

医師の診察の書き起こし

プライバシーの懸念

インシデント 8271 Report
AI Transcription Tool Whisper Reportedly Inserting Fabricated Content in Medical Transcripts