Report 6226

最近の研究によると、一部のAIチャットボットは、撤回された科学論文の欠陥のある研究に基づいて質問に答えているという。MIT Technology Reviewによって確認されたこの調査結果は、AIツールが科学研究を評価する上でどれほど信頼できるのかという疑問を提起し、科学者向けAIツールへの投資を目指す国や業界の取り組みを複雑化させる可能性がある。

AI検索ツールやチャットボットは、リンクや参考文献を偽造することが既に知られている。しかし、実際の論文の資料に基づいた回答であっても、その論文が撤回されている場合には誤解を招く可能性がある。テネシー大学メンフィスの医学研究者で、最近の研究の一つの著者でもあるウェイクアン・グ氏は、このチャットボットは「実際の論文、実際の資料を使って何かを伝えている」と述べています。しかし、人々が回答の内容だけを見て、論文をクリックして撤回されたことを確認しないのであれば、それは本当に問題だとグ氏は指摘しています。

グ氏と彼のチームは、GPT-4oモデル上で動作するOpenAIのChatGPTに、医用画像に関する撤回された論文21件の情報に基づいた質問をしました。チャットボットの回答は5件で撤回された論文を参照しましたが、注意を促したのは3件だけでした。他の質問では撤回されていない論文を引用していましたが、著者らは論文の撤回状況を認識していなかった可能性があると指摘しています。 8月の研究では、別の研究者グループがChatGPT-4o miniを使用して、さまざまな科学分野の撤回された論文や質の低い論文217本の品質を評価しました。その結果、チャットボットの応答には撤回やその他の懸念事項について言及されたものはなかったことがわかりました。（今年8月に発表されたGPT-5については、同様の研究は発表されていません。）

一般の人々は、AIチャットボットを利用して医療アドバイスを求めたり、健康状態を診断したりしています。学生や科学者は、既存の科学文献をレビューしたり、論文を要約したりするために、科学に特化したAIツール科学に特化したAIツールをますます利用しています。こうした利用は今後増加すると予想されます。例えば、米国立科学財団は今年8月、科学研究用AIモデルの構築に7,500万ドルを投資しました。

子供がチャットボットと絆を結ぶことで生じるリスクにより、AIの安全性は抽象的な懸念から政治的な争点へと変化しました。これから何が起こるのでしょうか？

「[ツールが]一般公開される場合、撤回を一種の品質指標として用いることは非常に重要です」と、イリノイ大学アーバナ・シャンペーン校の情報科学研究者であるYuanxi Fu氏は述べています。「撤回された論文は科学の記録から抹消されるという点で、ある種の合意がある」と彼女は述べ、「科学界の外にいる人々には、これらの論文が撤回された論文であることを警告すべきだ」と付け加えた。OpenAIは、この論文の結果に関するコメント要請に回答しなかった。

問題はChatGPTに限ったことではない。6月、MIT Technology Reviewは、Elicit、Ai2 ScholarQA（現在はアレン人工知能研究所のAstaツールの一部）、Perplexity、Consensusといった、研究用途に特化したAIツールを、Gu氏の研究で撤回された21本の論文に基づいた質問を用いてテストした。Elicitは回答の中で撤回された論文のうち5本を参照したが、Ai2 ScholarQAは17本、Perplexityは11本、Consensusは18本を参照した。いずれも撤回論文については言及していなかった。

その後、いくつかの企業がこの問題の修正に動いている。「最近まで、当社の検索エンジンには十分な撤回データがありませんでした」と、コンセンサスの共同創業者であるクリスチャン・セーラム氏は述べています。同社は現在、出版社やデータアグリゲータ、独立したウェブクロール、そして撤回論文のデータベースを手動でキュレーション・管理するRetraction Watchなど、複数の情報源から収集した撤回データを活用し始めています。8月に同じ論文をテストしたところ、コンセンサスは撤回論文をわずか5件しか引用していませんでした。

ElicitはMIT Technology Reviewに対し、学術研究カタログOpenAlexによってフラグ付けされた撤回論文をデータベースから削除しており、「撤回論文の情報源の集約に現在も取り組んでいる」と述べています。Ai2は、同社のツールは現在、撤回論文を自動的に検出・削除していないと述べています。Perplexityは、「100%の正確性を保証するものではない」と述べています。

しかし、撤回データベースに頼るだけでは十分ではないかもしれません。Retraction Watchの共同創設者であるIvan Oransky氏は、このデータベースを包括的なデータベースとは捉えていません。データベースの構築には、誰もが持ち合わせている以上のリソースが必要になるからです。「リソースを大量に消費するのは、正確な情報を得るためには、誰かがすべて手作業で行わなければならないからです。」

さらに問題を複雑にしているのは、出版社が撤回通知に対する統一されたアプローチを共有していないことです。「論文が撤回された場合、その旨を示す方法は出版社によって大きく異なります」と、カナダのレジーナ大学で研究・発見ツールの専門家であるCaitlin Bakker氏は述べています。「訂正」「懸念の表明」「正誤表」「撤回」などは、出版社が研究論文に付与するラベルの一部です。これらのラベルは、内容、方法論、データに関する懸念、利益相反の存在など、様々な理由で付与される可能性があります。

研究者の中には、論文をプレプリントサーバー、論文リポジトリ、その他のウェブサイトに配布し、論文がウェブ上に散在するケースがあります。さらに、AIモデルの学習に使用されたデータは最新ではない可能性があります。論文がモデルの学習期限後に撤回された場合、その返答は状況を即座に反映しない可能性があるとFu氏は述べています。シンガポール経営大学の図書館員であるAaron Tay氏は、ほとんどの学術検索エンジンは撤回データとのリアルタイム照合を行わないため、そのコーパスの正確性に左右されると述べています。

Oransky氏をはじめとする専門家は、モデルが返答を作成する際に利用できるコンテキストを増やすことを提唱しています。これは、ジャーナルが委託した査読やレビューサイトPubPeerからの批評など、既存の情報を論文と一緒に公開することを意味する可能性があります。

NatureやBMJなどの多くの出版社は、論文にリンクされた別の記事として撤回通知を公開し、有料会員制にしていません。フー氏は、企業はこうした情報だけでなく、モデルのトレーニングデータに含まれる論文撤回に関するニュース記事も有効に活用する必要があると述べている。

AIツールのユーザーと開発者は、十分な注意を払う必要がある。「私たちはまだ非常に初期段階にあり、基本的に懐疑的になる必要がある」とテイ氏は言う。

レポート 6226

AIモデルは撤回された科学論文の資料を使用している