Viernes, 06 de febrero de 2026 Vie 06/02/2026
RSS Contacto
MERCADOS
Cargando datos de mercados...
Tecnología

La programación es el nuevo tablero de la IA. OpenAI y Anthropic lo han dejado claro con GPT-5.3-Codex y Claude Opus 4.6

La programación es el nuevo tablero de la IA. OpenAI y Anthropic lo han dejado claro con GPT-5.3-Codex y Claude Opus 4.6
Artículo Completo 1,284 palabras
Cuando ChatGPT irrumpió en noviembre de 2022, OpenAI parecía no tener rival. Y, en buena medida, así era. Aquel chatbot, pese a sus errores y limitaciones, inauguró una categoría propia. Sin embargo, en el sector tecnológico las ventajas rara vez son permanentes y, en 2026, la posición de la compañía liderada por Sam Altman dista mucho de la que tenía entonces. Google ha conseguido atraer al gran público con Nano Banana Pro, mientras Gemini gana terreno de forma sostenida como chatbot de inteligencia artificial. Al mismo tiempo, la cuota de mercado de ChatGPT ha retrocedido de manera apreciable en algunos mercados. Anthropic, por su parte, se ha consolidado como una referencia en ingeniería de software y se ha convertido en una de las herramientas preferidas entre los programadores. En esta carrera por marcar el ritmo de la IA, este jueves hemos asistido a un movimiento curioso: la llegada casi simultánea de dos modelos centrados en programación, GPT-5.3-Codex y Claude Opus 4.6. La coincidencia no parece casual y refleja hasta qué punto los grandes actores del sector compiten por definir el siguiente paso, en un escenario donde los principales beneficiados somos, una vez más, los usuarios. Con estos nuevos modelos ya sobre la mesa, la cuestión pasa a ser qué aportan realmente. Sobran las promesas y también empiezan a aparecer benchmarks comparables que ayudan a situarlos. Así que, por tanto, toca mirar con algo más de detalle qué proponen OpenAI y Anthropic para quienes utilizan la IA como herramienta de desarrollo. GPT-5.3-Codex y Opus 4.6 entran en escena: qué promete cada uno a los desarrolladores GPT-5.3-Codex se presenta como un modelo enfocado en agentes de programación que busca ampliar el alcance de lo que un desarrollador puede delegar en la IA. OpenAI afirma que combina mejoras en rendimiento de código, razonamiento y conocimiento profesional respecto a generaciones anteriores y que es un 25% más rápido. Con ese equilibrio, el sistema está orientado a tareas prolongadas que implican investigación, uso de herramientas y ejecución compleja, manteniendo además la posibilidad de intervenir y guiar el proceso en tiempo real sin que se pierda el hilo de trabajo. Uno de los elementos más llamativos que OpenAI destaca en esta generación es el papel que el propio Codex habría tenido en su desarrollo. El equipo utilizó versiones tempranas del modelo para depurar el entrenamiento, gestionar el despliegue y analizar resultados de pruebas y evaluaciones, un enfoque que aceleró los ciclos de investigación e ingeniería. Más allá de ese proceso interno, GPT-5.3-Codex también muestra avances en tareas prácticas como la creación autónoma de aplicaciones y juegos web. La compañía ha publicado dos ejemplos que podemos probar ahora mismo pulsando sobre los enlaces: un juego de carreras con ocho mapas y un juego de buceo para explorar arrecifes. El turno de Anthropic llega con Claude Opus 4.6, una actualización que la compañía presenta como una mejora directa en planificación, autonomía y fiabilidad dentro de grandes bases de código. El modelo, afirman, puede sostener tareas agénticas durante más tiempo, revisar y depurar su propio trabajo con mayor precisión. La idea es que podamos usar esas capacidades en tareas como análisis financieros, investigación documental o creación de presentaciones. A ello se suma una ventana de contexto de hasta un millón de tokens en fase beta, un salto que busca reducir la pérdida de información en procesos largos y reforzar la utilidad del sistema. Más allá del núcleo del modelo, Anthropic acompaña Opus 4.6 con una serie de cambios orientados a prolongar su utilidad en flujos reales de trabajo. Entre ellos aparecen mecanismos como el llamado “pensamiento adaptativo”, que permite al sistema ajustar automáticamente la profundidad de su razonamiento según el contexto. También aparecen en escena niveles de esfuerzo configurables y técnicas de compresión de contexto diseñadas para sostener conversaciones y tareas largas sin agotar los límites disponibles. A esto se suman equipos de agentes que pueden coordinarse en paralelo dentro de Claude Code y una integración más profunda Excel o PowerPoint. Algunas empresas tuvieron acceso anticipado al nuevo modelo de Anthropic. La compañía recoge algunos de los testimonios en su página web. Aquí tienes uno de ellos:  "Claude Opus 4.6 cerró de forma autónoma 13 incidencias y asignó 12 incidencias a los miembros adecuados del equipo en un solo día, gestionando una organización de unas 50 personas en 6 repositorios. Se encargó tanto de las decisiones de producto como de las organizativas mientras sintetizaba el contexto en múltiples dominios, y supo cuándo escalar a un humano". Yusuke Kaji Director General de IA, RakutenMientras que el producto de OpenAI, GPT-5.3-Codex, todavía no está disponible en API, el de Anthropic sí lo está. Mantiene el precio base de 5 dólares por millón de tokens de entrada y 25 dólares por millón de tokens de salida, con matices como un coste premium cuando los prompts superan los 200.000 tokens. ¿Medir quién gana con números? Cuando se intenta poner frente a frente a GPT-5.3-Codex y Claude Opus 4.6, el principal obstáculo no está en la falta de cifras, sino en su difícil correspondencia. Cada compañía selecciona evaluaciones que reflejan mejor sus avances y, aunque muchas pertenecen a categorías similares, difieren en metodología, versiones o métricas, lo que impide una lectura directa. En este tipo de modelos, esa fragmentación de resultados forma parte del propio estado de la tecnología, pero también exige una interpretación prudente que separe demostraciones técnicas de comparaciones realmente equivalentes. Solo a partir de ese filtro es posible identificar los pocos puntos donde ambos sistemas pueden medirse en condiciones comparables y extraer conclusiones útiles para desarrolladores. Si restringimos el análisis a métricas realmente comparables, el terreno común entre GPT-5.3-Codex y Claude Opus 4.6 queda acotado a dos evaluaciones concretas identificadas mediante investigación propia: Terminal-Bench 2.0 y OSWorld en su versión verificada. En Xataka Google ha olido sangre con la IA, así que ha decidido gastarse en 2026 más que el PIB de 158 países del mundo Los resultados dibujan un reparto de fortalezas más que una supremacía clara. GPT-5.3-Codex marca un 77,3% en Terminal-Bench 2.0 frente al 65,4% de Opus 4.6, lo que apunta a una mayor eficacia en flujos de trabajo centrados en la terminal. Por el contrario, Opus 4.6 alcanza un 72,7% en OSWorld, superando el 64,7% de GPT-5.3-Codex en tareas de interacción general con el sistema, un contraste que refuerza la idea de especialización según el entorno de uso. Así que podríamos decir que las capacidades descritas por cada fabricante apuntan a herramientas que ya no se limitan a generar código, sino que buscan participar en procesos prolongados de análisis, ejecución y revisión dentro de entornos profesionales reales. Esa transición introduce nuevos criterios de elección que van más allá del rendimiento puntual. En Xataka | OpenAI tiene un problema: Anthropic está triunfando justo donde más dinero hay en juego - La noticia La programación es el nuevo tablero de la IA. OpenAI y Anthropic lo han dejado claro con GPT-5.3-Codex y Claude Opus 4.6 fue publicada originalmente en Xataka por Javier Marquez .
La programación es el nuevo tablero de la IA. OpenAI y Anthropic lo han dejado claro con GPT-5.3-Codex y Claude Opus 4.6
  • OpenAI y Anthropic lanzan casi a la vez sus modelos más avanzados para programar con IA

  • Las pruebas comparables muestran ventajas distintas según el tipo de tarea técnica

1 comentarioFacebookTwitterFlipboardE-mail 2026-02-05T21:14:56Z

Javier Marquez

Editor - Tech

Javier Marquez

Editor - Tech Linkedintwitter3156 publicaciones de Javier Marquez

Cuando ChatGPT irrumpió en noviembre de 2022, OpenAI parecía no tener rival. Y, en buena medida, así era. Aquel chatbot, pese a sus errores y limitaciones, inauguró una categoría propia. Sin embargo, en el sector tecnológico las ventajas rara vez son permanentes y, en 2026, la posición de la compañía liderada por Sam Altman dista mucho de la que tenía entonces.

Google ha conseguido atraer al gran público con Nano Banana Pro, mientras Gemini gana terreno de forma sostenida como chatbot de inteligencia artificial. Al mismo tiempo, la cuota de mercado de ChatGPT ha retrocedido de manera apreciable en algunos mercados. Anthropic, por su parte, se ha consolidado como una referencia en ingeniería de software y se ha convertido en una de las herramientas preferidas entre los programadores.

En esta carrera por marcar el ritmo de la IA, este jueves hemos asistido a un movimiento curioso: la llegada casi simultánea de dos modelos centrados en programación, GPT-5.3-Codex y Claude Opus 4.6. La coincidencia no parece casual y refleja hasta qué punto los grandes actores del sector compiten por definir el siguiente paso, en un escenario donde los principales beneficiados somos, una vez más, los usuarios.

Con estos nuevos modelos ya sobre la mesa, la cuestión pasa a ser qué aportan realmente. Sobran las promesas y también empiezan a aparecer benchmarks comparables que ayudan a situarlos. Así que, por tanto, toca mirar con algo más de detalle qué proponen OpenAI y Anthropic para quienes utilizan la IA como herramienta de desarrollo.

GPT-5.3-Codex y Opus 4.6 entran en escena: qué promete cada uno a los desarrolladores

GPT-5.3-Codex se presenta como un modelo enfocado en agentes de programación que busca ampliar el alcance de lo que un desarrollador puede delegar en la IA. OpenAI afirma que combina mejoras en rendimiento de código, razonamiento y conocimiento profesional respecto a generaciones anteriores y que es un 25% más rápido.

Con ese equilibrio, el sistema está orientado a tareas prolongadas que implican investigación, uso de herramientas y ejecución compleja, manteniendo además la posibilidad de intervenir y guiar el proceso en tiempo real sin que se pierda el hilo de trabajo.

Uno de los elementos más llamativos que OpenAI destaca en esta generación es el papel que el propio Codex habría tenido en su desarrollo. El equipo utilizó versiones tempranas del modelo para depurar el entrenamiento, gestionar el despliegue y analizar resultados de pruebas y evaluaciones, un enfoque que aceleró los ciclos de investigación e ingeniería.

Más allá de ese proceso interno, GPT-5.3-Codex también muestra avances en tareas prácticas como la creación autónoma de aplicaciones y juegos web. La compañía ha publicado dos ejemplos que podemos probar ahora mismo pulsando sobre los enlaces: un juego de carreras con ocho mapas y un juego de buceo para explorar arrecifes.

El turno de Anthropic llega con Claude Opus 4.6, una actualización que la compañía presenta como una mejora directa en planificación, autonomía y fiabilidad dentro de grandes bases de código. El modelo, afirman, puede sostener tareas agénticas durante más tiempo, revisar y depurar su propio trabajo con mayor precisión.

La idea es que podamos usar esas capacidades en tareas como análisis financieros, investigación documental o creación de presentaciones. A ello se suma una ventana de contexto de hasta un millón de tokens en fase beta, un salto que busca reducir la pérdida de información en procesos largos y reforzar la utilidad del sistema.

Más allá del núcleo del modelo, Anthropic acompaña Opus 4.6 con una serie de cambios orientados a prolongar su utilidad en flujos reales de trabajo. Entre ellos aparecen mecanismos como el llamado “pensamiento adaptativo”, que permite al sistema ajustar automáticamente la profundidad de su razonamiento según el contexto.

También aparecen en escena niveles de esfuerzo configurables y técnicas de compresión de contexto diseñadas para sostener conversaciones y tareas largas sin agotar los límites disponibles. A esto se suman equipos de agentes que pueden coordinarse en paralelo dentro de Claude Code y una integración más profunda Excel o PowerPoint.

Algunas empresas tuvieron acceso anticipado al nuevo modelo de Anthropic. La compañía recoge algunos de los testimonios en su página web. Aquí tienes uno de ellos: 

"Claude Opus 4.6 cerró de forma autónoma 13 incidencias y asignó 12 incidencias a los miembros adecuados del equipo en un solo día, gestionando una organización de unas 50 personas en 6 repositorios. Se encargó tanto de las decisiones de producto como de las organizativas mientras sintetizaba el contexto en múltiples dominios, y supo cuándo escalar a un humano". Yusuke Kaji
Director General de IA, Rakuten

Mientras que el producto de OpenAI, GPT-5.3-Codex, todavía no está disponible en API, el de Anthropic sí lo está. Mantiene el precio base de 5 dólares por millón de tokens de entrada y 25 dólares por millón de tokens de salida, con matices como un coste premium cuando los prompts superan los 200.000 tokens.

¿Medir quién gana con números?

Cuando se intenta poner frente a frente a GPT-5.3-Codex y Claude Opus 4.6, el principal obstáculo no está en la falta de cifras, sino en su difícil correspondencia. Cada compañía selecciona evaluaciones que reflejan mejor sus avances y, aunque muchas pertenecen a categorías similares, difieren en metodología, versiones o métricas, lo que impide una lectura directa.

En este tipo de modelos, esa fragmentación de resultados forma parte del propio estado de la tecnología, pero también exige una interpretación prudente que separe demostraciones técnicas de comparaciones realmente equivalentes. Solo a partir de ese filtro es posible identificar los pocos puntos donde ambos sistemas pueden medirse en condiciones comparables y extraer conclusiones útiles para desarrolladores.

Si restringimos el análisis a métricas realmente comparables, el terreno común entre GPT-5.3-Codex y Claude Opus 4.6 queda acotado a dos evaluaciones concretas identificadas mediante investigación propia: Terminal-Bench 2.0 y OSWorld en su versión verificada.

En XatakaGoogle ha olido sangre con la IA, así que ha decidido gastarse en 2026 más que el PIB de 158 países del mundo

Los resultados dibujan un reparto de fortalezas más que una supremacía clara. GPT-5.3-Codex marca un 77,3% en Terminal-Bench 2.0 frente al 65,4% de Opus 4.6, lo que apunta a una mayor eficacia en flujos de trabajo centrados en la terminal. Por el contrario, Opus 4.6 alcanza un 72,7% en OSWorld, superando el 64,7% de GPT-5.3-Codex en tareas de interacción general con el sistema, un contraste que refuerza la idea de especialización según el entorno de uso.

Así que podríamos decir que las capacidades descritas por cada fabricante apuntan a herramientas que ya no se limitan a generar código, sino que buscan participar en procesos prolongados de análisis, ejecución y revisión dentro de entornos profesionales reales. Esa transición introduce nuevos criterios de elección que van más allá del rendimiento puntual.

En Xataka | OpenAI tiene un problema: Anthropic está triunfando justo donde más dinero hay en juego

Fuente original: Leer en Xataka
Compartir