Report 5095

今年初め、科学者たちは論文の中で「栄養電子顕微鏡法（vegetative electronic microscopy）」という奇妙な用語を発見しました。

専門用語のように聞こえますが、実際には意味をなさないこの用語は、「デジタル化石」と呼ばれるようになりました。これは、人工知能（AI）システムに保存・強化されたエラーであり、私たちの知識リポジトリから削除することはほぼ不可能です。

岩に閉じ込められた生物の化石のように、これらのデジタル遺物は私たちの情報エコシステムに永久に残る可能性があります。

栄養電子顕微鏡法の事例は、AIシステムがどのようにして私たちの集合的な知識全体にエラーを永続させ、増幅させることができるのか、憂慮すべき一面を垣間見せてくれます。

スキャン不良と翻訳ミス

栄養電子顕微鏡法（vegetative electronic microscopy）は、無関係なエラーが偶然重なったことで生まれたようです。

まず、1950年代にBacteriological Reviews誌に掲載された2つの論文がスキャンされ、デジタル化されました。

しかし、デジタル化の過程で、ある欄の「vegetative」と別の欄の「electron」が誤って組み合わされてしまいました。その結果、架空の用語が生まれました。

数十年後、「vegetative electronic microscopy」という表現が、イランのいくつかの科学論文に登場しました。 2017 および [2019](https://web.p.ebscohost.com/abstract?site=eh ost&scope=site&jrnl=20085729&AN=141678734&h=e9Z0lqUsvh1WBhQvCayQkWtMqGcULLWTPrWyrZbI%2bQdCrwycHUHwP0UFo7hX3eLpPU1VEhqXgz4QHsTCrtBAFw%3d%3d&crl=c&resultLocal=ErrCrlNoResults&resultNs=Ehost&crlhashurl=login.aspx%3fdirect%3dtrue%26profile%3dehost%26scope%3dsite%26authtype%3dcrawler%26jrnl%3d20085729%26AN%3d141678734)、2件の論文で英語のキャプションと概要にこの用語が使用されていました。

これは翻訳ミスによるものと思われます。ペルシア語では、「vegetative」と「scanning」はドット1つだけ異なります。

間違いが増えています

その結果は？今日現在、「vegetative electronic microscopy」はGoogle Scholarによると、22件の論文に掲載されています。 1件はSpringer Nature誌からの撤回の対象となり、もう1件についてはElsevierが訂正を発表しました。

この用語は、その後の完全性調査について議論するニュース記事にも登場しています。

栄養電子顕微鏡法は、2020年代に頻繁に使用されるようになりました。その理由を探るために、私たちは現代のAIモデルの内部を覗き込み、それらが学習に使用した膨大なデータ層を考古学的に掘り下げる必要がありました。

AI汚染の実証的証拠

ChatGPTなどの現代のAIチャットボットを支える大規模言語モデルは、膨大な量のテキストで「学習」され、シーケンス内の次の単語を予測します。モデルの学習データの正確な内容は、しばしば厳重に守られた秘密です。

モデルが「vegetative electronic microscopy」について「知っていた」かどうかをテストするために、元の論文の断片を入力し、モデルが意味不明な用語で補完するか、より適切な代替語で補完するかを調べました。

結果は示唆に富んでいました。OpenAIのGPT-3は一貫して「vegetative electronic microscopy」でフレーズを補完しました。GPT-2やBERTなどの以前のモデルはそうではありませんでした。このパターンは、汚染がいつどこで発生したかを特定するのに役立ちました。

また、GPT-4oやAnthropicのClaude 3.5などの後期モデルでもこのエラーが依然として発生していることも判明しました。これは、このナンセンスな用語がAI知識ベースに恒久的に埋め込まれている可能性があることを示唆しています。

様々なモデルのトレーニングデータセットに関する知見を比較した結果、インターネットページをスクレイピングしたCommonCrawlデータセットが、AIモデルがこの用語を最初に学習したベクトルとして最も可能性の高いものと判断しました。

規模の問題

この種のエラーを見つけるのは容易ではありません。修正はほぼ不可能かもしれません。

理由の1つは規模です。例えば、CommonCrawlデータセットは数百万ギガバイトにも及びます。大手テクノロジー企業以外のほとんどの研究者にとって、この規模で作業するために必要な計算リソースはアクセス不可能です。

もう1つの理由は、商用AIモデルの透明性の欠如です。OpenAIをはじめとする多くの開発者は、自社モデルのトレーニングデータに関する正確な詳細情報の提供を拒否しています。これらのデータセットの一部をリバースエンジニアリングする研究も、著作権侵害による削除によって阻まれています。(https://theconversation.com/books-3-has-revealed-thousands-of-pirated-australian-books-in-the-age-of-ai-is-copyright-law-still-fit-for-purpose-214637)

誤りが見つかった場合、簡単に修正できる方法はありません。単純なキーワードフィルタリングで「栄養電子顕微鏡法」などの特定の用語に対応できるかもしれませんが、正当な参考文献（本論文など）も除外されてしまう可能性があります。

より根本的な問題として、この事例は不安な疑問を提起します。AIシステムには、他にどれだけの意味不明な用語が存在し、発見されるのを待っているのでしょうか？

科学と出版への影響

この「デジタル化石」は、AIを活用した研究や執筆が一般的になるにつれ、知識の完全性に関する重要な疑問も提起しています。

栄養電子顕微鏡法を含む論文の通知を受けた出版社の対応は一貫していません。影響を受けた論文を撤回した出版社もあれば、論文を擁護した出版社もありました。エルゼビアは特に、用語の妥当性を正当化しようと試みた後、最終的に訂正を発表した。

大規模言語モデルに同様の問題が他にも存在するかどうかはまだ分かっていませんが、その可能性は非常に高いでしょう。いずれにせよ、AIシステムの使用は既に査読プロセスに問題を引き起こしています。

例えば、自動整合性ソフトウェアを回避するために使用される「歪んだフレーズ」の増加が指摘されています。例えば、「人工知能」の代わりに「偽の意識」といった表現が使われています。さらに、「私はAI言語モデルです」といったフレーズが、他の撤回された論文にも見つかっています。

Problematic Paper Screenerなどの一部の自動スクリーニングツールは、栄養電子顕微鏡検査をAI生成コンテンツの可能性がある警告サインとして検出しています。しかし、このようなアプローチは既知のエラーに対処できるだけで、未発見のエラーには対処できません。

デジタル化石と共に生きる

AIの台頭は、単一の主体が制御できないプロセスを通じて、エラーが知識システムに恒久的に埋め込まれる機会を生み出します。これは、テクノロジー企業、研究者、出版社にとって同様に課題となります。

テクノロジー企業は、学習データと手法について、より透明性を高める必要があります。研究者は、AIが生成した説得力のあるナンセンスに対して、情報を評価する新しい方法を見つけなければなりません。科学出版社は、人間とAIの両方が生成したエラーを検出できるように、査読プロセスを改善する必要があります。

デジタル化石は、膨大なデータセットを監視するという技術的な課題だけでなく、エラーが永続化する可能性のあるシステムにおいて、信頼できる知識を維持するという根本的な課題も明らかにしています。

レポート 5095

関連インシデント

インシデント 10442 Report
Reported Emergence of 'Vegetative Electron Microscopy' in Scientific Papers Traced to Purported AI Training Data Contamination

科学論文に奇妙なフレーズが蔓延している。原因はAIトレーニングデータの不具合にあることが判明した。

スキャン不良と翻訳ミス

間違いが増えています

AI汚染の実証的証拠

規模の問題

科学と出版への影響

デジタル化石と共に生きる

レポート 5095

関連インシデント

インシデント 10442 ReportReported Emergence of 'Vegetative Electron Microscopy' in Scientific Papers Traced to Purported AI Training Data Contamination

科学論文に奇妙なフレーズが蔓延している。原因はAIトレーニングデータの不具合にあることが判明した。

スキャン不良と翻訳ミス

間違いが増えています

AI汚染の実証的証拠

規模の問題

科学と出版への影響

デジタル化石と共に生きる

インシデント 10442 Report
Reported Emergence of 'Vegetative Electron Microscopy' in Scientific Papers Traced to Purported AI Training Data Contamination