El ascenso de la IA generativa al mundo del desarrollo de software parecía seguir un guión claro: los modelos escribirían el código y los humanos se encargarían de revisarlo. Era el nuevo equilibrio. Pues bien, Anthropic acaba de cargárselo.
El problema de programar con IA. Lo que hoy conocemos como vibe coding, esa práctica de darle instrucciones en lenguaje natural a una IA para que genere código a toda velocidad, ha disparado la producción de software en las empresas. Anthropic afirma que la cantidad de código generado por cada uno de sus propios ingenieros ha crecido un 200% en el último año. Y ahora hay un problema: hay tanto código nuevo que revisarlo se ha convertido en el cuello de botella del proceso.
Los desarrolladores humanos no dan abasto. Muchas pull requests (las propuestas de cambio que hay que revisar antes de integrar código nuevo) se leen por encima o directamente no se leen con demasiado detenimiento.
En Xataka
Una startup malagueña es la app de IA europea más usada del mundo según Andreessen Horowitz. Se llama Freepik
Qué ha hecho Anthropic. La compañía ha lanzado Code Review, una herramienta integrada en Claude Code que, en lugar de esperar a que un humano revise el código, despliega un equipo de agentes de IA para hacerlo de forma automática cada vez que se abre una pull request. Este nuevo sistema ya está disponible en fase de vista previa para clientes de los planes Team y Enterprise.
Cat Wu, responsable de producto en Anthropic, explicaba a TechCrunch que la pregunta que les llegaba constantemente de los responsables técnicos de sus clientes era siempre la misma: "Ahora que Claude Code está generando un montón de pull requests, ¿cómo me aseguro de que se revisan de forma eficiente?".
Cómo funciona por dentro. Los agentes de IA trabajan en paralelo de forma autónoma en el momento en el que se abre una pull request, examinando el código desde distintas perspectivas. Luego un agente final agrega y prioriza los problemas que ha encontrado, eliminando duplicados y ordenándolos por gravedad. El resultado llega al desarrollador por medio de un comentario destacado, acompañado de más comentarios en línea sobre errores concretos.
El foco, según Anthropic, está en errores lógicos, no en cuestiones de estilo, algo ideado a propósito para que el feedback no genere demasiado ruido. Los problemas se etiquetan por colores según lo importantes que sean: rojo para lo crítico, amarillo para lo que merece atención, y morado para lo relacionado con código preexistente.
Números. La empresa lleva meses usando Code Review internamente antes de lanzarlo al mercado. Según cuentan, antes de implantarlo, solo el 16% de sus pull requests recibían comentarios de revisión significativos. Con la herramienta, ese porcentaje sube al 54%. En pull requests grandes (más de 1.000 líneas modificadas) el 84% arrojaban resultados, con una media de 7,5 problemas detectados. Y menos del 1% de esos resultados son marcados como incorrectos por los propios ingenieros.
En uno de los casos documentados por la compañía, hablaban de un cambio de una sola línea que parecía rutinario. Sin embargo, Code Review lo marcó como crítico, ya que al parecer podría haber roto la autenticación del servicio al completo. El error se corrigió antes de integrarse. Además, según cuenta la compañía, el ingeniero reconoció después que no lo habría pillado él solo.
En Xataka
Un inversor de OpenAI tiene claro el futuro del empleo: "es improbable que un niño de cinco años de hoy necesite trabajar nunca"
El nuevo rol del programador. La narrativa que se había extendido en los últimos dos años era que los desarrolladores evolucionarían hacia un perfil más cercano al de revisor o supervisor de código generado por IA. Ahora esa transición también está siendo automatizada, al menos en parte. Anthropic no elimina al humano de la ecuación (de hecho la herramienta no aprueba pull requests), pero sí comprime el trabajo de revisión que se suponía era el último bastión. Parece que ahora el humano pasa de revisor a árbitro final.
Precio. No es una herramienta barata. Cada revisión tiene un coste basado en el consumo de tokens. Anthropic estima que el precio medio por revisión oscila entre 15 y 25 dólares, dependiendo de la complejidad del código. Es un coste que la empresa justifica en el contexto de grandes empresas tecnológicas donde los errores que escapan a revisión tienen un precio mucho mayor.
Imagen de portada | Compagnons
En Xataka | Las empresas de software se hundieron en bolsa por una sencilla razón: los inversores tienen pánico de la IA
-
La noticia
Creíamos que los programadores humanos acabarían siendo revisores de código. Anthropic se acaba de cargar eso
fue publicada originalmente en
Xataka
por
Antonio Vallejo
.
Creíamos que los programadores humanos acabarían siendo revisores de código. Anthropic se acaba de cargar eso
Anthropic lanza Code Review, un sistema de agentes de IA capaz de revisar código
Es una IA que revisa el código generado por una IA
El ascenso de la IA generativa al mundo del desarrollo de software parecía seguir un guión claro: los modelos escribirían el código y los humanos se encargarían de revisarlo. Era el nuevo equilibrio. Pues bien, Anthropic acaba de cargárselo.
El problema de programar con IA. Lo que hoy conocemos como vibe coding, esa práctica de darle instrucciones en lenguaje natural a una IA para que genere código a toda velocidad, ha disparado la producción de software en las empresas. Anthropic afirma que la cantidad de código generado por cada uno de sus propios ingenieros ha crecido un 200% en el último año. Y ahora hay un problema: hay tanto código nuevo que revisarlo se ha convertido en el cuello de botella del proceso.
Los desarrolladores humanos no dan abasto. Muchas pull requests (las propuestas de cambio que hay que revisar antes de integrar código nuevo) se leen por encima o directamente no se leen con demasiado detenimiento.
Qué ha hecho Anthropic. La compañía ha lanzado Code Review, una herramienta integrada en Claude Code que, en lugar de esperar a que un humano revise el código, despliega un equipo de agentes de IA para hacerlo de forma automática cada vez que se abre una pull request. Este nuevo sistema ya está disponible en fase de vista previa para clientes de los planes Team y Enterprise.
Cat Wu, responsable de producto en Anthropic, explicaba a TechCrunch que la pregunta que les llegaba constantemente de los responsables técnicos de sus clientes era siempre la misma: "Ahora que Claude Code está generando un montón de pull requests, ¿cómo me aseguro de que se revisan de forma eficiente?".
Cómo funciona por dentro. Los agentes de IA trabajan en paralelo de forma autónoma en el momento en el que se abre una pull request, examinando el código desde distintas perspectivas. Luego un agente final agrega y prioriza los problemas que ha encontrado, eliminando duplicados y ordenándolos por gravedad. El resultado llega al desarrollador por medio de un comentario destacado, acompañado de más comentarios en línea sobre errores concretos.
El foco, según Anthropic, está en errores lógicos, no en cuestiones de estilo, algo ideado a propósito para que el feedback no genere demasiado ruido. Los problemas se etiquetan por colores según lo importantes que sean: rojo para lo crítico, amarillo para lo que merece atención, y morado para lo relacionado con código preexistente.
Números. La empresa lleva meses usando Code Review internamente antes de lanzarlo al mercado. Según cuentan, antes de implantarlo, solo el 16% de sus pull requests recibían comentarios de revisión significativos. Con la herramienta, ese porcentaje sube al 54%. En pull requests grandes (más de 1.000 líneas modificadas) el 84% arrojaban resultados, con una media de 7,5 problemas detectados. Y menos del 1% de esos resultados son marcados como incorrectos por los propios ingenieros.
En uno de los casos documentados por la compañía, hablaban de un cambio de una sola línea que parecía rutinario. Sin embargo, Code Review lo marcó como crítico, ya que al parecer podría haber roto la autenticación del servicio al completo. El error se corrigió antes de integrarse. Además, según cuenta la compañía, el ingeniero reconoció después que no lo habría pillado él solo.
El nuevo rol del programador. La narrativa que se había extendido en los últimos dos años era que los desarrolladores evolucionarían hacia un perfil más cercano al de revisor o supervisor de código generado por IA. Ahora esa transición también está siendo automatizada, al menos en parte. Anthropic no elimina al humano de la ecuación (de hecho la herramienta no aprueba pull requests), pero sí comprime el trabajo de revisión que se suponía era el último bastión. Parece que ahora el humano pasa de revisor a árbitro final.
Precio. No es una herramienta barata. Cada revisión tiene un coste basado en el consumo de tokens. Anthropic estima que el precio medio por revisión oscila entre 15 y 25 dólares, dependiendo de la complejidad del código. Es un coste que la empresa justifica en el contexto de grandes empresas tecnológicas donde los errores que escapan a revisión tienen un precio mucho mayor.