Anthropic restringe el acceso a su modelo más avanzado Claude Mythos tras comprobar que es capaz de detectar y explotar vulnerabilidad. Los avances de esta compañía y de su rival OpenAI con reabren el debate sobre los peligros de la automatización de los ciberataques.
Durante una prueba de seguridad, los ingenieros de Anthropic retaron a su último modelo de inteligencia artificial a que intentara escapar de su entorno controlado. El sistema lo consiguió. Diseñó su fuga, se las arregló para contactar por sorpresa con uno de los investigadores por correo electrónico y decidió publicar cómo lo había logrado en varios sitios web públicos.
El episodio refleja el nivel de autonomía que ha alcanzado Claude Mythos, el modelo más avanzado de Anthropic, cuyo acceso se ha restringido a un grupo reducido de organizaciones tras constatar sus capacidades potencialmente peligrosas en manos de los ciberdelincuentes. Esta semana, OpenAI ha seguido sus pasos ofreciendo a unos pocos clientes un nuevo modelo, GPT-5.4 Cyber, capaz de encontrar fallos de seguridad antes de que los hackers empleen activamente este tipo de herramientas.
Estos movimientos reabren el debate sobre un futuro en el que la inteligencia artificial se emplee de manera masiva para lanzar ciberataques automatizados. "Vamos a un escenario de fábricas de ataques con inteligencia artificial, en el que los actores maliciosos pueden analizar sistemas empresariales a gran escala y generar continuamente nuevos métodos de ataque", explica Eusebio Nieva, director técnico de Check Point Software para España y Portugal.
Las capacidades de Claude Mythos
Los modelos actuales aumentan su peligrosidad si se les dota de mayor capacidad de razonamiento durante la ejecución de una tarea, por lo que OpenAI defiende que hay que actuar ya en ciberdefensa. En este sentido, la mayor autonomía y capacidad de razonamiento ha permitido a Claude Mythos encontrar miles de vulnerabilidades serias en grandes sistemas operativos y navegadores web, algunas de ellas sin detectar durante décadas. Según Anthropic, el sistema consiguió replicar fallos de seguridad y demostrar cómo explotarlos en el primer intento en un 83% de los casos. Por ejemplo, fue capaz de tomar el control de máquinas con el sistema Linux tras crear una ruta de ataque conectando diversas vulnerabilidades.
"Los modelos de inteligencia artificial han alcanzado un nivel tan avanzado en su capacidad de programar que pueden superar a casi todos los humanos, salvo a los más expertos, en el hallazgo y explotación de vulnerabilidades de software", aseguran desde la compañía.
Ante la capacidad de esta inteligencia artificial, Anthropic ha decidido, por primera vez en su historia, dar acceso restringido a la actual versión preliminar tan solo a medio centenar de grandes empresas, entre ellas Apple, Amazon, Nvidia y Microsoft. El uso está limitado a la ciberdefensa, es decir, encontrar y parchear vulnerabilidades en software crítico antes de que actores maliciosos desarrollen capacidades similares. De momento, no hay un plan encima de la mesa para lanzarlo de manera generalizada.
¿Márketing?
Mythos llega en un momento clave para Anthropic, que prepara su salida a Bolsa. En plena carrera por liderar la inteligencia artificial, la compañía traslada una percepción de que su IA es tan potente, y potencialmente peligrosa, que es mejor guardarla a buen recaudo para emplearla de manera controlada, lo que contribuye a proyectar una imagen de superioridad tecnológica.
Sin embargo, el hecho de que grandes compañías estén utilizando el modelo para detectar y solventar fallos de seguridad demuestra que sus avanzadas capacidades son reales, más allá del relato de márketing. "Anthropic tiene un historial de declaraciones apocalípticas y algo cuestionables, pero esta vez los expertos en seguridad otorgan mucha más credibilidad a sus palabras", dice el analista Benedict Evans.
Alarma
La preocupación también es real. Varios Gobiernos han llevado a cabo reuniones para evaluar las implicaciones de seguridad del modelo. Scott Bessent, secretario del Tesoro de Estados Unidos, ha tratado este tema en un encuentro con algunos de los mayores bancos del país, como Bank of America, Citigroup, Goldman Sachs, Morgan Stanley y Wells Fargo. Por su parte, reguladores financieros del Reino Unido mantienen conversaciones con el principal organismo de ciberseguridad del país y sus principales entidades financieras para investigar los riesgos que presenta el modelo de IA de Anthropic, según señala Financial Times. Por su parte, la Comisión Europea se reunió este martes con Anthropic para abordar los posibles riesgos de Claude Mythos.
Según la evaluación del Instituto de Seguridad de IA de Reino Unido, en 2023, los mejores modelos apenas lograban completar tareas de ciberseguridad de nivel principiante. "Hoy, Mythos Preview muestra que este modelo -y potencialmente los futuros- podría recibir instrucciones para comprometer de forma autónoma sistemas pequeños, con defensas débiles y vulnerables si tiene acceso a la red", explican los expertos. "Los modelos futuros serán aún más capaces, pero la IA también puede ofrecer capacidades avanzadas para la defensa", dicen en un reciente análisis.
¿Una pesadilla?
El riesgo sería el uso de estos modelos con gran autonomía para encontrar fallos sin descanso, lo que aumenta la probabilidad de filtraciones de datos y de interrupciones en servicios on line. La IA podría orquestar lo que se conoce como ataques de día cero a gran escala, porque puede encontrar estos errores que nadie había detectado hasta ahora, y atacarlos antes de que exista un parche, según explican los expertos.
"Para los responsables de seguridad, esto no es algo teórico. Significa que la ventana de tiempo para explotar vulnerabilidades se está reduciendo drásticamente", dice Nieva. Por eso, este experto subraya que las organizaciones deben validar sus fundamentos de seguridad, auditar las de sus proveedores y asumir que sus adversarios usarán capacidades avanzadas, ya sea abusando directamente de modelos avanzados o esperando a que lleguen a modelos de código abierto sin supervisión.
La seguridad en la era de los agentes autónomos
DesplegableLos agentes de IA pueden ejecutar acciones de forma autónoma, lo que introduce nuevos riesgos. Estas son algunas de las recomendaciones que dan los expertos:
Establecer estructuras de responsabilidad para definir qué humano o departamento responde por las acciones de cada agente inteligente.
Mantener registros de actividad detallados. Las empresas deben recoger cada paso que da el agente. Esta auditoría permite rastrear qué hizo si, por ejemplo, es manipulado a través de instrucciones que engañan a la IA.
Gestionar identidades. Un agente autónomo mal configurado actúa como un usuario privilegiado sin supervisión. Por eso, deben tener sus identidades, credenciales y permisos.
Implantar un modelo de confianza cero. El sistema debe verificar la identidad y los permisos cada vez que un agente de IA intente acceder a una base de datos o realizar una conexión.
Aplicar el principio de privilegio mínimo. Asegurar que cada acción de un agente se produce con el mínimo privilegio necesario, con accesos temporales y siempre con supervisión humana en los puntos críticos.
Automatizar la respuesta ante amenazas. El uso de agentes inteligentes por los ciberdelincuentes exige una defensa que opere a gran velocidad. Las empresas deben contar con sistemas basados en IA capaces de detectar y neutralizar ataques en segundos.
Reevaluar las bases de seguridad. Evaluar la eficacia de la primera línea de defensa, identificar los puntos ciegos, acelerar los ciclos de parcheo y reforzar la segmentación de la red ante una oleada de ataques por IA.
El 20% de las empresas acapara el 75% del valor generado por la IAAsí anticipa Repsol la demanda en cada estación de servicioWhoop, la empresa que seduce a Ronaldo y ya vale 10.000 millones de dólares Comentar ÚLTIMA HORA