La carrera de la inteligencia artificial suele contarse como una competición por ver quién construye el modelo más potente o el que domina más benchmarks. En medio de ese tablero, la startup francesa Mistral AI acaba de presentar Mistral Small 4, una propuesta que intenta ocupar un lugar distinto en esa conversación. No se presenta como un modelo limitado a una sola función, sino como uno que, según la compañía, busca reunir varias capacidades avanzadas dentro de una misma herramienta.
Qué es exactamente Small 4. La compañía lo presenta como la nueva gran iteración de su familia Mistral Small y, sobre todo, como el primer modelo de la casa que reúne capacidades que antes estaban repartidas entre varias líneas. En concreto, integra funciones asociadas a Magistral, Pixtral y Devstral junto a las de la propia serie Small.
Menos modelos, más funciones. Una de las ideas centrales del anuncio es concentrar en un único sistema tareas que normalmente se resuelven con herramientas distintas. Según Mistral, el objetivo es que el mismo modelo pueda utilizarse para conversar, analizar información compleja, trabajar con imágenes o asistir en programación sin tener que alternar entre varios sistemas especializados.
Los números detrás de Small 4. El modelo se apoya en una arquitectura Mixture of Experts, un diseño que distribuye el procesamiento entre distintos submodelos especializados y que hoy aparece en varios sistemas de inteligencia artificial. En el caso de Small 4, Mistral indica que el sistema cuenta con 128 expertos y que solo cuatro participan en cada token generado. Según la compañía, el modelo alcanza 119B parámetros totales, con 6B activos por token, y ofrece una ventana de contexto de hasta 256k.
Para quién está pensado este modelo. Más allá de su arquitectura, Mistral también describe con bastante claridad los escenarios en los que imagina el uso de Small 4. Veamos.
• Desarrolladores: automatización de tareas de programación, exploración de bases de código y flujos de trabajo de agentes de código
• Empresas: asistentes conversacionales, comprensión de documentos y análisis multimodal
• Investigación: matemáticas, análisis complejo y tareas de razonamiento
La idea de fondo es que el modelo pueda moverse entre necesidades bastante distintas sin obligar a cambiar de sistema según el tipo de trabajo.
Los gráficos. En el material que acompaña el anuncio, Mistral incluye varios gráficos donde compara Small 4 con otros modelos en distintos benchmarks. Esas comparaciones no se limitan a la puntuación obtenida en cada prueba. También muestran la longitud media de las respuestas que genera cada sistema, un dato que la empresa utiliza para ilustrar cuánto texto necesita producir cada modelo para alcanzar determinados resultados.
Uno de los gráficos del anuncio corresponde al benchmark AA LCR, donde Mistral compara la puntuación de varios modelos y la longitud media de las respuestas que generan para resolver las mismas tareas. Los datos que publica la empresa son los siguientes:
• Mistral Small 4: 0,72 de puntuación con 1.600 caracteres
• GPT-OSS 120B: 0,51 con 2.500 caracteres
• Claude Haiku: 0,80 con 2.700 caracteres
• Qwen3-next 80B: 0,75 con 5.800 caracteres
• Qwen3.5 122B: 0,84 con 5.700 caracteres
La comparación. Small 4 no es el modelo con la puntuación más alta. Tanto Claude Haiku como los modelos de Qwen aparecen por encima en ese indicador. Sin embargo, Mistral destaca otro aspecto de la comparación: la longitud de las respuestas. Según la empresa, su modelo logra esa combinación de puntuación y longitud de salida generando bastante menos texto que varios de sus competidores, algo que relaciona con menor latencia y menor coste de inferencia.
El truco de las respuestas cortas. Una respuesta más corta no es mejor por el simple hecho de ocupar menos espacio. Solo lo es si consigue resolver la tarea con un nivel de calidad comparable al de una respuesta más larga. Ahí es donde Mistral intenta poner el foco: si un modelo alcanza un resultado competitivo generando menos texto, puede responder antes, consumir menos recursos y reducir el coste de inferencia. En otras palabras, la ventaja no está en ser más escueto, sino en necesitar menos salida para llegar a un resultado útil.
En Xataka
En 2016 millones de personas salieron a cazar Pokémon a la calle. En 2026 hay robots autónomos guiándose gracias a ello
Cómo acceder al nuevo modelo. Small 4 no solo puede usarse a través de la API y AI Studio. Al estar publicado bajo licencia Apache 2.0, también se plantea como un modelo abierto que puede descargarse, ajustarse y desplegarse en entornos propios. La empresa añade que puede probarse gratis en build.nvidia.com, además de ofrecerlo para producción como NVIDIA NIM.
Imágenes | Mistral
En Xataka | OpenAI lleva años queriendo ser la novia en la boda y el muerto en el entierro: ahora ha definido al fin su prioridad
-
La noticia
La europea Mistral acaba de lanzar Small 4: su apuesta en la carrera de la IA es reunir varias funciones en un solo modelo
fue publicada originalmente en
Xataka
por
Javier Marquez
.
La europea Mistral acaba de lanzar Small 4: su apuesta en la carrera de la IA es reunir varias funciones en un solo modelo
Small 4 intenta reunir conversación razonamiento análisis multimodal y programación en un solo sistema
Utiliza una arquitectura Mixture of Experts con 128 expertos
La carrera de la inteligencia artificial suele contarse como una competición por ver quién construye el modelo más potente o el que domina más benchmarks. En medio de ese tablero, la startup francesa Mistral AIacaba de presentar Mistral Small 4, una propuesta que intenta ocupar un lugar distinto en esa conversación. No se presenta como un modelo limitado a una sola función, sino como uno que, según la compañía, busca reunir varias capacidades avanzadas dentro de una misma herramienta.
Qué es exactamente Small 4. La compañía lo presenta como la nueva gran iteración de su familia Mistral Small y, sobre todo, como el primer modelo de la casa que reúne capacidades que antes estaban repartidas entre varias líneas. En concreto, integra funciones asociadas a Magistral, Pixtral y Devstral junto a las de la propia serie Small.
Menos modelos, más funciones. Una de las ideas centrales del anuncio es concentrar en un único sistema tareas que normalmente se resuelven con herramientas distintas. Según Mistral, el objetivo es que el mismo modelo pueda utilizarse para conversar, analizar información compleja, trabajar con imágenes o asistir en programación sin tener que alternar entre varios sistemas especializados.
Los números detrás de Small 4. El modelo se apoya en una arquitectura Mixture of Experts, un diseño que distribuye el procesamiento entre distintos submodelos especializados y que hoy aparece en varios sistemas de inteligencia artificial. En el caso de Small 4, Mistral indica que el sistema cuenta con 128 expertos y que solo cuatro participan en cada token generado. Según la compañía, el modelo alcanza 119B parámetros totales, con 6B activos por token, y ofrece una ventana de contexto de hasta 256k.
Para quién está pensado este modelo. Más allá de su arquitectura, Mistral también describe con bastante claridad los escenarios en los que imagina el uso de Small 4. Veamos.
Desarrolladores: automatización de tareas de programación, exploración de bases de código y flujos de trabajo de agentes de código
Empresas: asistentes conversacionales, comprensión de documentos y análisis multimodal
Investigación: matemáticas, análisis complejo y tareas de razonamiento
La idea de fondo es que el modelo pueda moverse entre necesidades bastante distintas sin obligar a cambiar de sistema según el tipo de trabajo.
Los gráficos. En el material que acompaña el anuncio, Mistral incluye varios gráficos donde compara Small 4 con otros modelos en distintos benchmarks. Esas comparaciones no se limitan a la puntuación obtenida en cada prueba. También muestran la longitud media de las respuestas que genera cada sistema, un dato que la empresa utiliza para ilustrar cuánto texto necesita producir cada modelo para alcanzar determinados resultados.
Uno de los gráficos del anuncio corresponde al benchmark AA LCR, donde Mistral compara la puntuación de varios modelos y la longitud media de las respuestas que generan para resolver las mismas tareas. Los datos que publica la empresa son los siguientes:
• Mistral Small 4: 0,72 de puntuación con 1.600 caracteres • GPT-OSS 120B: 0,51 con 2.500 caracteres • Claude Haiku: 0,80 con 2.700 caracteres • Qwen3-next 80B: 0,75 con 5.800 caracteres • Qwen3.5 122B: 0,84 con 5.700 caracteres
La comparación. Small 4 no es el modelo con la puntuación más alta. Tanto Claude Haiku como los modelos de Qwen aparecen por encima en ese indicador. Sin embargo, Mistral destaca otro aspecto de la comparación: la longitud de las respuestas. Según la empresa, su modelo logra esa combinación de puntuación y longitud de salida generando bastante menos texto que varios de sus competidores, algo que relaciona con menor latencia y menor coste de inferencia.
El truco de las respuestas cortas. Una respuesta más corta no es mejor por el simple hecho de ocupar menos espacio. Solo lo es si consigue resolver la tarea con un nivel de calidad comparable al de una respuesta más larga. Ahí es donde Mistral intenta poner el foco: si un modelo alcanza un resultado competitivo generando menos texto, puede responder antes, consumir menos recursos y reducir el coste de inferencia. En otras palabras, la ventaja no está en ser más escueto, sino en necesitar menos salida para llegar a un resultado útil.
Cómo acceder al nuevo modelo. Small 4 no solo puede usarse a través de la APIy AI Studio. Al estar publicado bajo licencia Apache 2.0, también se plantea como un modelo abierto que puede descargarse, ajustarse y desplegarse en entornos propios. La empresa añade que puede probarse gratis en build.nvidia.com, además de ofrecerlo para producción como NVIDIA NIM.