Expertos e ingenieros de software advierten que el nuevo modelo de IA de Anthropic podría dar inicio a una nueva era de hacking y ciberseguridad a medida que los sistemas de IA capaces de razonamiento avanzado identifiquen y exploten un número creciente de vulnerabilidades de software.
Citando el daño potencial que podría resultar de una mayor liberación pública, la principal empresa de IA, Anthropic, lanzó el modelo de vanguardia, llamado Preview de Claude Mythos, a un grupo limitado de empresas tecnológicas el martes.
El modelo es el último de la serie de sistemas de IA Claude de Anthropic. Su lanzamiento fue presentado a finales de marzo, cuando Fortune identificó su mención en una base de datos no segura en el sitio web de Anthropic.
Los investigadores de Anthropic dicen que el Mythos Preview fue capaz de detectar miles de fallos y defectos de software de alta y crítica severidad, con vulnerabilidades identificadas en la mayoría de los sistemas operativos principales y navegadores web. Anthropic dice que algunas de las vulnerabilidades han estado sin descubrir durante décadas. Mientras que algunos expertos externos pidieron precaución al interpretar los nuevos resultados dados la información pública limitada sobre las vulnerabilidades identificadas, muchos otros dijeron que el debut del modelo y la precaución de Anthropic eran significativos.
«Todo es muy real,» dijo Katie Moussouris, la CEO y cofundadora de Luta Security, una empresa que conecta a los investigadores de ciberseguridad con empresas que tienen vulnerabilidades de software, acerca del bombo alrededor de las afirmaciones de Anthropic.
«No soy una persona del tipo de ‘el cielo se está cayendo’ cuando se trata de esto,» dijo Moussouris. «Definitivamente vamos a ver algunas enormes ramificaciones.»
En lugar de una liberación pública, Anthropic está dando a empresas tecnológicas como Microsoft, Nvidia y Cisco acceso a Mythos Preview para reforzar las defensas cibernéticas. Como parte del nuevo esfuerzo, llamado Proyecto Glasswing, Anthropic dará acceso a más de 50 organizaciones tecnológicas a Mythos Preview con más de $100 millones en créditos de uso.
«Los socios del Proyecto Glasswing recibirán acceso a Claude Mythos Preview para encontrar y corregir vulnerabilidades o debilidades en sus sistemas fundamentales – sistemas que representan una parte muy grande de la superficie de ataque cibernético compartida del mundo,» anunció Anthropic en una entrada de blog. «El Proyecto Glasswing es un paso importante hacia darle a los defensores una ventaja duradera en la próxima era de ciberseguridad impulsada por IA.»
No está claro exactamente qué vulnerabilidades identificó Mythos Preview ni cuántas han sido descubiertas o reportadas previamente. Debido a la naturaleza sensible de las vulnerabilidades, Anthropic dijo que revelaría la naturaleza de las vulnerabilidades actualmente opacas dentro de 135 días de compartir las vulnerabilidades con las organizaciones o partes responsables del software.
Es la primera vez en casi siete años que una empresa de IA líder ha retenido un modelo tan públicamente por preocupaciones de seguridad. En 2019, OpenAI – ahora uno de los principales rivales de Anthropic – decidió retener su sistema GPT-2 «debido a preocupaciones sobre el uso de modelos de lenguaje grandes para generar lenguaje engañoso, sesgado o abusivo a gran escala.»
Mythos Preview es un modelo de propósito general o el tipo de sistema que alimenta productos como Claude Code o ChatGPT. Sin embargo, en las pruebas previas al lanzamiento, Anthropic encontró que sus capacidades de ciberseguridad en particular eran sorprendentemente avanzadas en comparación con las de modelos anteriores, lo que llevó a la creación de Proyecto Glasswing.
Logan Graham, quien lidera la investigación cibernética ofensiva en Anthropic, dijo que el modelo Mythos Preview era lo suficientemente avanzado no sólo para identificar vulnerabilidades de software no descubiertas, sino también para weaponizarlas. El modelo puede realizar tareas de hacking complejas y efectivas por sí solo, incluyendo la identificación de múltiples vulnerabilidades no reveladas, escribir código que pueda hackearlas y luego encadenarlas para formar una manera de penetrar software complejo, dijo.
«Lo hemos visto regularmente encadenar vulnerabilidades juntas. El grado de autonomía y en cierto modo la capacidad de alcance largo, la capacidad de juntar varias cosas, creo que es algo particular de este modelo,» dijo Graham a NBC News.
Esa capacidad significó que la empresa hasta ahora se muestra reacia a liberar incluso una versión cuidadosamente guardraileada del modelo al público, dijo, al menos hasta que algunas empresas occidentales puedan usarlo para identificar defensas para construir alrededor de ellos.
«No estamos seguros de que todos deberían tener acceso en este momento,» dijo Graham. «Necesitamos empezar a averiguar cómo nos prepararíamos para un mundo de esto antes de poder manejar la idea de que hackers black hat tengan acceso.»
Anthropic también ha informado al gobierno federal sobre las capacidades de ciberseguridad de Mythos Preview. Anthropic está envuelta en una acalorada disputa con la administración Trump sobre el uso de sus modelos por parte del gobierno federal después de que el Secretario de Defensa, Pete Hegseth, declarara a Anthropic un «riesgo para la cadena de suministro de la seguridad nacional» a finales de febrero. Un juez federal a finales del mes pasado emitió una orden judicial preliminar contra la designación, que la administración Trump está apelando.
Según un empleado de Anthropic, la empresa «informó a altos funcionarios en todo el gobierno de EE.UU. sobre las capacidades completas de Mythos Preview, incluidas tanto sus aplicaciones ofensivas como defensivas de ciber.»
«Llevar al gobierno al circuito temprano – sobre lo que el modelo puede hacer, dónde están los riesgos y cómo los estamos gestionando – fue una prioridad desde el principio,» dijo el empleado.
CISA y el Instituto Nacional de Normas y Tecnología, la agencia que incluye al CAISI, no respondieron a las solicitudes de comentario antes de la publicación. Un portavoz de la Agencia de Seguridad Nacional, ampliamente considerada como la agencia de hackeo más sofisticada del mundo, declinó hacer comentarios cuando se le preguntó si había sido informada sobre Mythos.
No todos están convencidos de que Mythos Preview represente el salto que reclama Anthropic.
Heidy Khlaaf, científica de IA jefa del Instituto AI Now, un instituto de investigación con sede en EE.UU., dijo que la entrada detallada de blog de Anthropic explicando las nuevas vulnerabilidades omitió muchos detalles clave necesarios para verificar sus afirmaciones.
Escribiendo en X, Khlaaf advirtió contra «tomar estas afirmaciones al pie de la letra» sin más información, como las tasas de falsos positivos y explicaciones más claras de cómo los humanos llevaron a cabo revisiones manuales de las vulnerabilidades identificadas.
Más allá de las implicaciones en ciberseguridad de Mythos Preview, el modelo también demostró comportamientos preocupantes como parte de las pruebas de seguridad previas al lanzamiento de Anthropic.
Según Khlaaf, en una evaluación, el modelo mostró algún tipo de conciencia de que estaba siendo evaluado en alrededor del 29% de las transcripciones, aunque no les dijo explícitamente a los investigadores que sabía que estaba siendo evaluado. Algunos investigadores temen que un modelo pueda cambiar su comportamiento y actuar de manera más segura si es consciente de que está siendo evaluado.
Anthropic y los investigadores que trabajan con la empresa para evaluar la seguridad del modelo también afirmaron que el Mythos Preview aparentemente actuó intencionalmente peor en una evaluación de lo que podría haberlo hecho para parecer menos sospechoso.
«Encontramos este patrón de comportamiento en general preocupante y no lo hemos visto antes en evaluaciones similares de modelos anteriores de Claude,» escribió Anthropic en el informe del sistema.
En otro experimento con una versión anterior de Mythos Preview, un investigador de Anthropic instruyó a un modelo prácticamente aislado en una computadora segura a intentar escapar y enviar un mensaje al investigador. El investigador, Sam Bowman, estaba comiendo un sándwich en un parque cuando recibió un correo electrónico del modelo.
«Esa instancia no debía tener acceso a internet,» escribió Bowman en X.




/2026/03/18/le-palais-de-justice-de-caen-69bb1d352fc3b857175768.jpg)