En los últimos años nos hemos acostumbrado a una idea bastante asumida en el mundo de la IA: los modelos más rápidos suelen ser menos inteligentes que aquellos que se toman más tiempo para responder. Estas variantes “livianas” funcionan muy bien en términos de costes y latencia para muchas aplicaciones, pero cuando el razonamiento es determinante, lo habitual ha sido subir de nivel.
Ahora bien, en la carrera por liderar el desarrollo de la inteligencia artificial acaba de ocurrir algo poco habitual. Gemini 3 Flash, el nuevo modelo de Google, ha superado en varias pruebas de rendimiento a GPT-5.2 Extra High, la variante de mayor razonamiento de OpenAI. Y eso obliga a replantear algunas de las reglas que dábamos por sentadas.
Un modelo rápido que también razona. El nuevo modelo de Google llega con una promesa muy concreta: demostrar que “la velocidad y la escalabilidad no tienen por qué ir en detrimento de la inteligencia”. Aunque ha sido diseñado con la eficiencia en mente, tanto en costes como en rapidez, Google insiste en que Gemini 3 Flash también destaca en tareas de razonamiento.
Según la compañía, el modelo puede graduar su capacidad de pensamiento. Es capaz de “pensar” durante más tiempo cuando el caso de uso lo requiere, pero también utiliza un 30% menos de tokens de media que Gemini 2.5 Pro, medido con tráfico típico, para completar una amplia variedad de tareas con alta precisión y sin penalizar los tiempos de respuesta.
La verdad está en los benchmarks. ¿Son perfectos los benchmarks? No. Pero siguen siendo una de las herramientas más útiles que tenemos para comparar modelos de IA, enfrentarlos entre sí y detectar en qué escenarios rinden mejor o peor. Y en este terreno, Gemini 3 Flash sale bien parado.
En SimpleQA Verified, una prueba que mide la fiabilidad en preguntas de conocimiento, Gemini 3 Flash alcanza un 68,7% frente al 38,0% de GPT-5.2 Extra High. En razonamiento multimodal, dentro de MMMU-Pro, el modelo de Google obtiene un 81,2% frente al 79,5% de OpenAI. En Video-MMMU, Flash logra un 86,9% frente al 85,9% de GPT-5.2 Extra High.
Si miramos las capacidades multilingües y culturales, Flash vuelve a situarse por delante, con un 91,8% frente al 89,6% de GPT-5.2 Extra High. En Global PIQA, centrado en sentido común en 100 idiomas, la diferencia se mantiene: 92,8% para Flash frente al 91,2% del modelo de OpenAI. Todo apunta a que Gemini 3 Flash está especialmente optimizado para captar matices fuera del inglés y razonar con mayor soltura en contextos globales.
También destaca en el uso de herramientas y agentes. En Toolathlon, Flash obtiene un 49,4% frente al 46,3% de GPT-5.2 Extra High. En la FACTS Benchmark Suite, la diferencia es más ajustada, pero sigue a favor de Google: 61,9% frente al 61,4%. En tareas de ejecución de herramientas a largo plazo, Flash parece mostrar una mayor consistencia.
Pero no es el rey del razonamiento puro. Ahora bien, conviene mirar la foto completa. Aunque Gemini 3 Flash supera al mejor modelo de OpenAI en varias pruebas, si lo que se busca es razonamiento “puro”, el equilibrio cambia. En las pruebas más exigentes en este ámbito, GPT-5.2 Extra High sigue marcando la referencia.
El modelo de OpenAI lidera ARC-AGI-2, centrado en acertijos visuales, con un 52,9% frente al 33,6% de Flash. En AIME 2025, con ejecución de código, alcanza el 100% frente al 99,7%. Y en SWE-bench Verified, orientado a ingeniería de software, obtiene un 80,0% frente al 78,0% de Gemini 3 Flash.
Qué es exactamente GPT-5.2 Extra High. A lo largo del artículo aparece varias veces el nombre GPT-5.2 Extra High, y es normal preguntarse si se trata de algo nuevo o poco conocido. En realidad, no es un modelo que se mencione habitualmente de cara al público general.
Google utiliza esta denominación en su tabla comparativa para referirse al nivel máximo de razonamiento disponible en la API de OpenAI para GPT-5.2 Thinking y Pro. En la documentación oficial de OpenAI aparece identificado como “xhigh”.
Dónde se puede usar Gemini 3 Flash. El acceso a Gemini 3 Flash no depende del país. Si tienes acceso a la app de Gemini, ya estás usando este modelo, que se ha convertido en la opción predeterminada. También está llegando a desarrolladores a través de la API, AI Studio y Vertex AI. En Estados Unidos, el despliegue va un paso más allá, ya que Gemini 3 Flash se ha convertido en el modelo por defecto del AI Mode del buscador de Google.
En Xataka
OpenAI acaba de lanzar un nuevo ChatGPT Images con un objetivo clarísimo: plantar cara al fenómeno Nano Banana Pro de Google
El precio de usar Gemini 3 Flash. Para quienes quieran integrar Gemini 3 Flash en sus aplicaciones, el modelo tiene un coste de 0,50 dólares por millón de tokens de entrada y 3 dólares por millón de tokens de salida. Supone un ligero aumento respecto a Gemini Flash 2.5, que costaba 0,30 dólares por millón de tokens de entrada y 2,50 dólares por millón de tokens de salida.
Una carrera cada vez más ajustada. Quedan lejos los días en los que Google intentaba plantar cara a ChatGPT con Bard, o en los que OpenAI parecía moverse con años de ventaja sobre el resto. Hoy, las distancias entre los grandes actores de la IA se han reducido de forma drástica. La competencia es más directa, más técnica y, sobre todo, mucho más reñida.
Imágenes | Google
En Xataka | Amazon prepara una inversión de 10.000 millones en OpenAI porque si no puedes con tu enemigo lo mejor es unirte a él
-
La noticia
Gemini 3 Flash ha superado a GPT-5.2 Extra High en varios benchmarks: Google acaba de cambiar las reglas del modelo ligero
fue publicada originalmente en
Xataka
por
Javier Marquez
.
Gemini 3 Flash ha superado a GPT-5.2 Extra High en varios benchmarks: Google acaba de cambiar las reglas del modelo ligero
El modelo de Google prioriza velocidad y eficiencia sin renunciar al razonamiento
La carrera por liderar el desarrollo de la IA está más reñida que nunca
En los últimos años nos hemos acostumbrado a una idea bastante asumida en el mundo de la IA: los modelos más rápidos suelen ser menos inteligentes que aquellos que se toman más tiempo para responder. Estas variantes “livianas” funcionan muy bien en términos de costes y latencia para muchas aplicaciones, pero cuando el razonamiento es determinante, lo habitual ha sido subir de nivel.
Ahora bien, en la carrera por liderar el desarrollo de la inteligencia artificial acaba de ocurrir algo poco habitual. Gemini 3 Flash, el nuevo modelo de Google, ha superado en varias pruebas de rendimiento a GPT-5.2 Extra High, la variante de mayor razonamiento de OpenAI. Y eso obliga a replantear algunas de las reglas que dábamos por sentadas.
Un modelo rápido que también razona. El nuevo modelo de Google llega con una promesa muy concreta: demostrar que “la velocidad y la escalabilidad no tienen por qué ir en detrimento de la inteligencia”. Aunque ha sido diseñado con la eficiencia en mente, tanto en costes como en rapidez, Google insiste en que Gemini 3 Flash también destaca en tareas de razonamiento.
Según la compañía, el modelo puede graduar su capacidad de pensamiento. Es capaz de “pensar” durante más tiempo cuando el caso de uso lo requiere, pero también utiliza un 30% menos de tokens de media que Gemini 2.5 Pro, medido con tráfico típico, para completar una amplia variedad de tareas con alta precisión y sin penalizar los tiempos de respuesta.
En SimpleQA Verified, una prueba que mide la fiabilidad en preguntas de conocimiento, Gemini 3 Flash alcanza un 68,7% frente al 38,0% de GPT-5.2 Extra High. En razonamiento multimodal, dentro de MMMU-Pro, el modelo de Google obtiene un 81,2% frente al 79,5% de OpenAI. En Video-MMMU, Flash logra un 86,9% frente al 85,9% de GPT-5.2 Extra High.
Si miramos las capacidades multilingües y culturales, Flash vuelve a situarse por delante, con un 91,8% frente al 89,6% de GPT-5.2 Extra High. En Global PIQA, centrado en sentido común en 100 idiomas, la diferencia se mantiene: 92,8% para Flash frente al 91,2% del modelo de OpenAI. Todo apunta a que Gemini 3 Flash está especialmente optimizado para captar matices fuera del inglés y razonar con mayor soltura en contextos globales.
También destaca en el uso de herramientas y agentes. En Toolathlon, Flash obtiene un 49,4% frente al 46,3% de GPT-5.2 Extra High. En la FACTS Benchmark Suite, la diferencia es más ajustada, pero sigue a favor de Google: 61,9% frente al 61,4%. En tareas de ejecución de herramientas a largo plazo, Flash parece mostrar una mayor consistencia.
Pero no es el rey del razonamiento puro. Ahora bien, conviene mirar la foto completa. Aunque Gemini 3 Flash supera al mejor modelo de OpenAI en varias pruebas, si lo que se busca es razonamiento “puro”, el equilibrio cambia. En las pruebas más exigentes en este ámbito, GPT-5.2 Extra High sigue marcando la referencia.
El modelo de OpenAI lidera ARC-AGI-2, centrado en acertijos visuales, con un 52,9% frente al 33,6% de Flash. En AIME 2025, con ejecución de código, alcanza el 100% frente al 99,7%. Y en SWE-bench Verified, orientado a ingeniería de software, obtiene un 80,0% frente al 78,0% de Gemini 3 Flash.
Qué es exactamente GPT-5.2 Extra High. A lo largo del artículo aparece varias veces el nombre GPT-5.2 Extra High, y es normal preguntarse si se trata de algo nuevo o poco conocido. En realidad, no es un modelo que se mencione habitualmente de cara al público general.
Dónde se puede usar Gemini 3 Flash. El acceso a Gemini 3 Flash no depende del país. Si tienes acceso a la app de Gemini, ya estás usando este modelo, que se ha convertido en la opción predeterminada. También está llegando a desarrolladores a través de la API, AI Studio y Vertex AI. En Estados Unidos, el despliegue va un paso más allá, ya que Gemini 3 Flash se ha convertido en el modelo por defecto del AI Mode del buscador de Google.
El precio de usar Gemini 3 Flash. Para quienes quieran integrar Gemini 3 Flash en sus aplicaciones, el modelo tiene un coste de 0,50 dólares por millón de tokens de entrada y 3 dólares por millón de tokens de salida. Supone un ligero aumento respecto a Gemini Flash 2.5, que costaba 0,30 dólares por millón de tokens de entrada y 2,50 dólares por millón de tokens de salida.
Una carrera cada vez más ajustada. Quedan lejos los días en los que Google intentaba plantar cara a ChatGPT con Bard, o en los que OpenAI parecía moverse con años de ventaja sobre el resto. Hoy, las distancias entre los grandes actores de la IA se han reducido de forma drástica. La competencia es más directa, más técnica y, sobre todo, mucho más reñida.