Report 5045

Durante el fin de semana, Meta lanzó dos nuevos modelos Llama 4: un modelo más pequeño, llamado Scout, y Maverick, un modelo mediano que, según la compañía, puede superar a GPT-4o y Gemini 2.0 Flash en una amplia gama de benchmarks ampliamente difundidos.

Maverick se aseguró rápidamente el segundo puesto en LMArena, el sitio web de benchmarks de IA donde se comparan los resultados de diferentes sistemas y se vota por el mejor. En su comunicado de prensa, Meta destacó la puntuación ELO de 1417 de Maverick, que lo situó por encima del 4o de OpenAI y justo por debajo de Gemini 2.5 Pro. (Una puntuación ELO más alta significa que el modelo gana con más frecuencia en la arena al competir con competidores).

Este logro pareció posicionar al Llama 4 de peso abierto de Meta como un serio rival para los modelos cerrados de vanguardia de OpenAI, Anthropic y Google. Sin embargo, los investigadores de IA que analizaron la documentación de Meta descubrieron algo inusual.

En letra pequeña, Meta reconoce que la versión de Maverick probada en LMArena no es la misma que la disponible para el público. Según los propios materiales de Meta, se implementó una "versión de chat experimental" de Maverick en LMArena, específicamente "optimizada para la conversacionalidad", según informó TechCrunch por primera vez [https://techcrunch.com/2025/04/06/metas-benchmarks-for-its-new-ai-models-are-a-bit-misleading/).

"La interpretación de Meta de nuestra política no coincidió con lo que esperábamos de los proveedores de modelos", publicó LMArena en X dos días después del lanzamiento del modelo. Meta debería haber aclarado que 'Llama-4-Maverick-03-26-Experimental' era un modelo personalizado para optimizar las preferencias humanas. Por ello, estamos actualizando nuestras políticas de clasificación para reforzar nuestro compromiso con evaluaciones justas y reproducibles, a fin de evitar que esta confusión se repita en el futuro.

Un portavoz de Meta, Ashley Gabriel, declaró por correo electrónico: "Experimentamos con todo tipo de variantes personalizadas".

"'Llama-4-Maverick-03-26-Experimental' es una versión optimizada para el chat con la que experimentamos y que también funciona bien en LMArena", añadió Gabriel. "Ya hemos lanzado nuestra versión de código abierto y veremos cómo los desarrolladores adaptan Llama 4 a sus propios casos de uso. Nos entusiasma ver qué crearán y esperamos sus comentarios".

Si bien lo que Meta hizo con Maverick no infringe explícitamente las normas de LMArena, el sitio ha expresado su preocupación por manipular el sistema y ha tomado medidas para "prevenir el sobreajuste y la fuga de datos de referencia". Cuando las empresas pueden enviar versiones optimizadas de sus modelos para pruebas mientras lanzan diferentes versiones al público, las clasificaciones de referencia como la de LMArena pierden relevancia como indicadores del rendimiento en el mundo real.

"Es la referencia general más respetada porque todas las demás son malas", declara el investigador independiente de IA Simon Willison a The Verge. "Cuando salió Llama 4, el hecho de que quedara segundo en la arena, justo después de Gemini 2.5 Pro, me impresionó mucho, y me arrepiento de no haber leído la letra pequeña".

Poco después del lanzamiento de Maverick y Scout por parte de Meta, la comunidad de IA empezó a hablar de un rumor de que Meta también había entrenado sus modelos Llama 4 para obtener un mejor rendimiento en las pruebas de rendimiento, ocultando sus verdaderas limitaciones. El vicepresidente de IA generativa de Meta, Ahmad Al-Dahle, abordó las acusaciones en una publicación en X: "También hemos escuchado afirmaciones de que entrenamos con conjuntos de pruebas; eso simplemente no es cierto y jamás lo haríamos. Entendemos que la calidad variable que se observa se debe a la necesidad de estabilizar las implementaciones".

"En general, es una versión muy confusa".

Algunos también notaron que Llama 4 se lanzó en un momento inusual. El sábado no suele ser cuando salen noticias importantes sobre IA. Después de que alguien en Threads preguntara por qué Llama 4 se lanzó el fin de semana, el CEO de Meta, Mark Zuckerberg, respondió: "Fue entonces cuando estuvo listo".

"En general, es un lanzamiento muy confuso", dice Willison, quien sigue y documenta de cerca los modelos de IA. "La puntuación del modelo que obtuvimos no me sirve para nada. Ni siquiera puedo usar el modelo con la puntuación alta".

El camino de Meta hacia el lanzamiento de Llama 4 no fue precisamente fácil. Según un informe reciente de The Information, la compañía retrasó repetidamente el lanzamiento debido a que el modelo no cumplía con las expectativas internas. Estas expectativas son especialmente altas después de que DeepSeek, una startup china de IA de código abierto, lanzara un modelo de peso abierto que generó mucha expectación.

En definitiva, usar un modelo optimizado en LMArena pone a los desarrolladores en una situación difícil. Al seleccionar modelos como Llama 4 para sus aplicaciones, es natural que busquen referencias de rendimiento. Pero, como en el caso de Maverick, estas referencias pueden reflejar capacidades que no están realmente disponibles en los modelos a los que el público puede acceder.

A medida que se acelera el desarrollo de la IA, este episodio muestra cómo las referencias de rendimiento se están convirtiendo en campos de batalla. También muestra cómo Meta anhela ser visto como un líder en IA, incluso si eso significa manipular el sistema.

Actualización, 7 de abril: Se actualizó la historia para incluir la declaración de Meta.

Problema 5045

Meta fue atrapado manipulando los puntos de referencia de la IA