Meta presentó LLAMA 4 como un antes y después en IA open source, destacando que Scout podía manejar contextos de hasta 10 millones de tokens. Pero se ha revelado que usaron versiones tuneadas para benchmarks como LM Arena, infringiendo sus normas y comprometiendo la credibilidad de los resultados.
🔍 El benchmark Fiction Live Bench muestra que Scout rinde especialmente mal en tareas largas, justo donde debía brillar.
💥 Como si fuera poco, la directora de IA de Meta dejó la empresa el mismo día del lanzamiento.
¿Estamos ante una disrupción o una jugada de marketing? Lo analizo en mi video de hoy.
