Report 5045

Ce week-end, Meta a lancé deux nouveaux modèles Llama 4 : un modèle plus petit, Scout, et Maverick, un modèle de taille moyenne qui, selon l'entreprise, peut surpasser GPT-4o et Gemini 2.0 Flash « sur un large éventail de benchmarks largement diffusés ».

Maverick s'est rapidement hissé à la deuxième place sur LMArena, le site de benchmarks d'IA où des experts comparent les résultats de différents systèmes et votent pour le meilleur. Dans son communiqué de presse, Meta a souligné le score ELO de 1 417 de Maverick, qui le place au-dessus du score 4o d'OpenAI et juste en dessous de Gemini 2.5 Pro. (Un score ELO plus élevé signifie que le modèle gagne plus souvent dans l'arène face à ses concurrents.)

Cette performance semblait positionner Llama 4, un modèle ouvert de Meta, comme un sérieux concurrent des modèles fermés de pointe d'OpenAI, d'Anthropic et de Google. Puis, des chercheurs en IA, en fouillant dans la documentation de Meta, ont découvert quelque chose d'inhabituel.

En petits caractères, Meta reconnaît que la version de Maverick testée sur LMArena n'est pas la même que celle disponible au public. Selon les propres documents de Meta, une version expérimentale de Maverick a été déployée sur LMArena, spécifiquement optimisée pour la conversation, comme l'a rapporté TechCrunch en premier.

« L'interprétation de notre politique par Meta ne correspond pas à nos attentes envers les fournisseurs de modèles », a déclaré LMArena sur X deux jours après la publication du modèle. Meta aurait dû préciser que « Llama-4-Maverick-03-26-Experimental » était un modèle personnalisé optimisé pour les préférences humaines. Par conséquent, nous mettons à jour nos politiques de classement afin de renforcer notre engagement en faveur d'évaluations équitables et reproductibles, afin d'éviter toute confusion à l'avenir.

Une porte-parole de Meta, Ashley Gabriel, a déclaré par courriel : « Nous testons toutes sortes de variantes personnalisées. »

« Llama-4-Maverick-03-26-Experimental » est une version optimisée pour le chat que nous avons testée et qui fonctionne également bien sur LMArena », a déclaré Gabriel. « Nous avons maintenant publié notre version open source et nous verrons comment les développeurs adaptent Llama 4 à leurs propres cas d'utilisation. Nous sommes impatients de voir ce qu'ils vont créer et attendons avec impatience leurs retours. »

Bien que ce que Meta a fait avec Maverick ne soit pas explicitement contraire aux règles de LMArena, le site a exprimé ses inquiétudes quant à la manipulation du système (https://blog.lmarena.ai/blog/2024/policy/?utm_source=chatgpt.com) et a pris des mesures pour « éviter le surapprentissage et les fuites de benchmarks ». Lorsque les entreprises peuvent soumettre des versions spécialement optimisées de leurs modèles à des tests tout en publiant différentes versions au public, les classements de benchmarks comme LMArena perdent de leur pertinence en tant qu'indicateurs de performances en conditions réelles.

« C'est le benchmark général le plus respecté, car tous les autres sont médiocres », explique Simon Willison, chercheur indépendant en IA, à The Verge. « Lors de la sortie de Llama 4, sa deuxième place, juste après Gemini 2.5 Pro, m'a vraiment impressionné, et je m'en veux de ne pas avoir lu les petits caractères. » Peu après la sortie de Maverick et Scout par Meta, la communauté de l'IA a commencé à parler d'une rumeur selon laquelle Meta aurait également entraîné ses modèles Llama 4 pour obtenir de meilleures performances lors des tests, tout en masquant leurs véritables limites. Ahmad Al-Dahle, vice-président de l'IA générative chez Meta, a répondu à ces accusations dans un article sur X : « Nous avons également entendu des allégations selon lesquelles nous avons entraîné sur des ensembles de tests ; c'est tout simplement faux et nous ne le ferions jamais. Nous pensons que la qualité variable observée est due à la nécessité de stabiliser les implémentations. »

« C'est une version globalement très confuse. »

Certains ont également remarqué que Llama 4 est sorti à une heure inhabituelle. Le samedi n'est généralement pas le jour où les grandes nouvelles concernant l'IA tombent. Après qu'un utilisateur de Threads a demandé pourquoi Llama 4 était sorti ce week-end, Mark Zuckerberg, PDG de Meta, a répondu : « C'est à ce moment-là qu'il était prêt. »

« C'est une sortie très déroutante en général », explique Willison, qui suit et documente de près les modèles d'IA. « Le score du modèle que nous avons obtenu est totalement inutile pour moi. Je ne peux même pas utiliser le modèle pour lequel ils ont obtenu un score élevé. »

Le cheminement de Meta vers la sortie de Llama 4 n'a pas été de tout repos. Selon un rapport récent de The Information, l'entreprise a repoussé à plusieurs reprises le lancement du modèle, celui-ci ne répondant pas aux attentes internes. Ces attentes sont particulièrement élevées après que DeepSeek, une startup chinoise d'IA open source, a publié un modèle open source qui a suscité un vif intérêt.

En fin de compte, l'utilisation d'un modèle optimisé dans LMArena met les développeurs dans une situation délicate. Lorsqu'ils sélectionnent des modèles comme Llama 4 pour leurs applications, ils se basent naturellement sur des benchmarks. Mais comme pour Maverick, ces benchmarks peuvent révéler des fonctionnalités qui ne sont pas réellement disponibles dans les modèles accessibles au public.

Alors que le développement de l'IA s'accélère, cet épisode montre comment les benchmarks deviennent des champs de bataille. Il illustre également la volonté de Meta d'être perçu comme un leader de l'IA, même si cela implique de manipuler le système.

Mise à jour, 7 avril : L'article a été mis à jour pour inclure la déclaration de Meta.

Problème 5045

Meta a été surpris en train de jouer à des benchmarks d'IA