Report 5045

先週末、Meta社は2つの新しいLlama 4モデルを発表しました。小型モデルのScoutと、中型モデルのMaverickです。Meta社によると、MaverickはGPT-4oとGemini 2.0 Flashを「広く報告されている幅広いベンチマークにおいて」凌駕できるとのことです。

Maverickは、人間が様々なシステムの出力を比較し、最も優れたシステムを選択するAIベンチマークサイトであるLMArenaで、瞬く間に2位を獲得しました。Meta社のプレスリリースでは、MaverickのELOスコアが1417と高く、OpenAIの4oを上回り、Gemini 2.5 Proをわずかに下回ったことを強調しています。（ELOスコアが高いほど、モデルは競合相手と直接対決した際にアリーナでより頻繁に勝利することを意味します。）

この成果により、MetaのオープンウェイトLlama 4は、OpenAI、Anthropic、Googleといった最先端のクローズドモデルに対する強力な挑戦者として位置づけられると思われました。しかし、Metaのドキュメントを精査していたAI研究者たちは、異例のことを発見しました。

Metaは、LMArenaでテストされたMaverickのバージョンが、一般に公開されているバージョンとは異なることを認めています。 Metaの資料によると、同社はLMarenaにMaverickの「実験的なチャットバージョン」を導入し、特に「会話性に最適化」されたとTechCrunchが最初に報じた(https://techcrunch.com/2025/04/06/metas-benchmarks-for-its-new-ai-models-are-a-bit-misleading/)。

「Metaによる当社のポリシー解釈は、モデルプロバイダーに期待するものと一致しませんでした」と、LMarenaはモデルのリリースから2日後にXに投稿した。 Metaは、「Llama-4-Maverick-03-26-Experimental」が人間の好みに合わせて最適化されたカスタマイズされたモデルであることを、より明確に説明すべきでした。そのため、将来このような混乱が生じないよう、公平で再現可能な評価へのコミットメントを強化するため、リーダーボードのポリシーを更新しました。

Metaの広報担当者であるアシュリー・ガブリエル氏は、メールでの声明で、「あらゆる種類のカスタムバリアントを実験しています」と述べています。

「「Llama-4-Maverick-03-26-Experimental」は、チャットに最適化されたバージョンで、LMArenaでも良好なパフォーマンスを発揮しています」とガブリエル氏は述べています。「オープンソース版をリリースしたので、開発者がLlama 4をそれぞれのユースケースに合わせてどのようにカスタマイズしていくかを見ていきます。開発者がどのようなものを開発するのか、楽しみにしており、継続的なフィードバックをお待ちしています。」

MetaがMaverickで行った行為はLMArenaのルールに明確に違反しているわけではありませんが、同サイトはシステムの不正利用について懸念を表明し、「過剰適合とベンチマーク漏れを防ぐ」ための措置を講じています。企業が自社モデルの特別に調整されたバージョンをテスト用に提出し、別のバージョンを一般に公開できる場合、LMArenaのようなベンチマークランキングは、実世界におけるパフォーマンスの指標としての意味を薄れてしまいます。

「他のベンチマークがどれもひどいので、LMArenaは最も広く尊重されている一般的なベンチマークです」と、独立系AI研究者のSimon Willison氏はThe Vergeに語っています。「Llama 4がリリースされたとき、Gemini 2.5 Proに次いで2位になったという事実には本当に感銘を受けました。細かい文字を読んでいなかったことを後悔しています。」

MetaがMaverickとScoutをリリースした直後、AIコミュニティでは、MetaがLlama 4モデルをベンチマークでより優れたパフォーマンスを発揮するようにトレーニングした一方で、その限界を隠蔽していたという噂が広まり始めました。MetaのジェネレーティブAI担当VPであるAhmad Al-Dahle氏は、Xへの投稿でこの疑惑について次のように反論しました。「テストセットでトレーニングしたという主張も耳にしましたが、それは全くの事実無根であり、決してそのようなことはしません。私たちの理解では、人々が目にしている品質のばらつきは、実装を安定化させる必要があるためだと考えています。」

「全体的に見て、非常に混乱を招くリリースです。」

一部の人々は、Llama 4のリリース時間が奇妙であることに気づいていました(https://x.com/kalomaze/status/1908706389922324599)。土曜日にAI関連の大きなニュースが出ることはあまりありません。ThreadsでLlama 4が週末にリリースされた理由を尋ねられたMetaのCEO、マーク・ザッカーバーグ氏は(https://www.threads.net/@zuck/post/DIFAsupTS7Z)、「ちょうどそのタイミングでリリースできたからです」と答えました。

「全体的に非常に分かりにくいリリースです」と、AIモデルを綿密に追跡・記録しているウィリスン氏は言います(https://simonwillison.net/)。「そこで得たモデルスコアは、私にとって全く価値がありません。彼らが高得点を獲得したモデルさえ、私には使えません。」

MetaがLlama 4をリリースするまでの道のりは、決して平坦なものではありませんでした。 _The Information_の最近のレポートによると、同社はモデルが社内の期待に応えられなかったため、リリースを繰り返し延期したとのことです。中国のオープンソースAIスタートアップ企業DeepSeekがオープンウェイトモデルをリリースし、大きな話題を呼んだことで、その期待は特に高まっています。

結局のところ、LMArenaで最適化されたモデルを使用することは、開発者を難しい立場に置きます。Llama 4のようなモデルをアプリケーションに選択する際には、当然のことながらベンチマークを参考にします。しかし、Maverickの場合と同様に、これらのベンチマークは、一般公開されているモデルでは実際には利用できない機能を反映している可能性があります。

AI開発が加速するにつれ、このエピソードはベンチマークが戦場になりつつあることを示しています。また、Metaが、たとえシステムを操作することになっても、AIリーダーとして認められたいと強く願っていることも示しています。

4月7日更新: Metaの声明を追加して記事を更新しました。

レポート 5045

MetaがAIベンチマークでゲームに巻き込まれる