La compañía asegura que Claude Mythos no fue entrenado de manera explícita para adquirir estas capacidades. Sin embargo, advierte que, si bien estas habilidades permiten corregir vulnerabilidades críticas, también lo vuelven considerablemente más eficaz para explotarlas con fines maliciosos.
¿Por qué preocupa tanto Claude Mythos?
Según los documentos técnicos de Anthropic, Claude Mythos puede identificar fallas con más de dos décadas de antigüedad. En las pruebas, el sistema descubrió una vulnerabilidad que llevaba más de 27 años oculta en OpenBSD, un sistema operativo reconocido por su seguridad. De igual forma, encontró una brecha de 16 años en FFmpeg, una librería de procesamiento multimedia de la que dependen numerosos servicios de video.
En paralelo, el sistema exhibe capacidades inéditas en modelos de Anthropic para generar código que aprovecha estas vulnerabilidades. Estas habilidades se observaron en una prueba sobre la explotación de fallas en el motor JavaScript de Firefox 147 de Mozilla. Mientras Opus 4.6 apenas logró convertir dichas fallas en exploits funcionales en dos ocasiones tras cientos de intentos, bajo las mismas condiciones Mythos Preview desarrolló exploits operativos en 181 ocasiones y alcanzó el control de registros en 29 intentos adicionales.
“Durante nuestras pruebas, descubrimos que Claude Mythos es capaz de identificar y explotar vulnerabilidades de día cero en los principales sistemas operativos y navegadores web cuando el usuario se lo indica”, afirmó el equipo de seguridad de la empresa.
A estas capacidades se suma la autonomía del sistema. En una prueba, los investigadores le dieron control de una computadora dentro de un entorno virtual aislado y le solicitaron intentar salir de ese sandbox para enviar un correo electrónico al ingeniero a cargo.
detalles técnicos de su intervención en varios sitios web públicos.Anthropic advierte que, con estas capacidades, incluso usuarios sin conocimientos técnicos podrían utilizar Claude Mythos para encontrar y explotar vulnerabilidades sofisticadas. “Ingenieros de la compañía, sin formación formal en seguridad, han solicitado a Mythos que identifique fallas de ejecución remota de código durante la noche y, al día siguiente, han obtenido un exploit completo y funcional. En otros casos, investigadores han desarrollado herramientas que permiten al modelo convertir vulnerabilidades en exploits sin intervención humana”, explica la empresa.
¿La nueva IA de Anthropic en verdad es tan peligrosa?
Pese a estos hallazgos, algunos especialistas han cuestionado el alcance real de los riesgos asociados a Claude Mythos. Gary Marcus, profesor emérito de la Universidad de Nueva York y uno de los críticos más visibles de la IA generativa, considera que el modelo no representa un salto revolucionario ni un riesgo inmediato como se ha sugerido en diversos medios de comunicación.
El académico argumenta que, en todos los casos presentados por Anthropic, Claude Mythos fue evaluado en entornos controlados y bajo condiciones específicas que difícilmente se replicarán en escenarios reales. Añade que muchas de sus capacidades ya existen, al menos en forma básica, en otros modelos abiertos. “Mythos es más sofisticado, pero quizás no tan superior como se ha dicho”, afirmó, al citar pruebas de investigadores que lograron identificar fallas similares en FreeBSD utilizando modelos más pequeños y accesibles.
Marcus reconoce que el sistema “es ligeramente mejor” que otros algoritmos recientes, pero insiste en que no representa un avance disruptivo. “Hasta cierto punto, siento que nos engañaron. La demostración fue una prueba de concepto de que necesitamos ordenar nuestros sistemas regulatorios y técnicos, pero no la amenaza inmediata que muchos imaginaron”, señaló.
Bloomberg, todas estas instituciones están clasificadas como sistémicamente importantes, lo que implica que su estabilidad es clave para el sistema financiero global.Anthropic cierra filas para prevenir ataques de IA más sofisticados
Ante este escenario, Anthropic lanzó el Proyecto Glasswing, una iniciativa orientada a proteger “el software más crítico del mundo”, en colaboración con empresas como Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, NVIDIA y Palo Alto Networks.
El programa busca convertir las capacidades de Claude Mythos en una herramienta de defensa cibernética frente a amenazas altamente sofisticadas. Los participantes emplearán el modelo en sus sistemas de seguridad para evaluar su desempeño, identificar sesgos y detectar posibles riesgos. Por su parte, Anthropic compartirá aprendizajes previos y destinará hasta 100 millones de dólares en créditos de uso de Mythos Preview, además de 4 millones en donaciones directas a organizaciones de seguridad de código abierto.
Las restricciones en torno a Claude Mythos dificultan determinar con certeza qué tan peligroso podría ser su uso indebido en entornos reales. No obstante, esta es la primera ocasión en que Anthropic limita el acceso inicial a uno de sus modelos, lo que sugiere que sus advertencias no deben ignorarse.
infraestructuras digitales que sostienen cientos de sistemas y servicios críticos.Asimismo, anticipa que es solo cuestión de tiempo para que este tipo de capacidades sea aprovechado por actores maliciosos, lo que podría tener consecuencias severas para la economía, la seguridad pública y la seguridad nacional de cada país.
“Ninguna organización puede resolver estos desafíos de ciberseguridad por sí sola. La defensa de la infraestructura digital global podría tomar años. Sin embargo, es probable que las capacidades de la IA de vanguardia avancen de forma sustancial en los próximos meses”, concluye Anthropic.