La inteligencia artificial se está convirtiendo rápidamente en parte de las operaciones militares. El Pentágono ha expandido sus asociaciones con importantes empresas de inteligencia artificial para sistemas clasificados, el Ejército está integrando la inteligencia artificial en el análisis de inteligencia en el campo de batalla, y los planificadores de defensa ven cada vez más la inteligencia artificial como esencial para los sistemas de mando y control del futuro.
Esa expansión ha creado una seria nueva preocupación en términos de seguridad: los agentes durmientes de la inteligencia artificial.
La mayoría de las personas se preocupan por que la inteligencia artificial cometa errores o genere información falsa. Los agentes durmientes de la inteligencia artificial son diferentes. El peligro no es el fallo accidental; en cambio, es un comportamiento oculto intencionalmente incrustado dentro de un sistema de inteligencia artificial que permanece latente hasta que un evento específico o un conjunto de condiciones lo activa.
¿Qué es un agente durmiente de inteligencia artificial?
Un agente durmiente de inteligencia artificial funciona de manera similar a un agente durmiente en espionaje. Un agente durmiente humano puede parecer completamente normal durante años. Se mezclan, realizan tareas ordinarias y evitan llamar la atención hasta que reciben una señal o desencadenante que activa las instrucciones.
Los agentes durmientes de inteligencia artificial funcionan de manera similar. Un modelo de inteligencia artificial puede parecer seguro, confiable y totalmente alineado durante las pruebas, mientras contiene secretamente comportamientos ocultos diseñados para activarse solo en circunstancias específicas.
La mayoría de los sistemas modernos de inteligencia artificial no están programados línea por línea como el software tradicional. Los modelos de lenguaje grandes aprenden patrones entrenándose con enormes cantidades de datos en miles de millones de parámetros internos, a menudo llamados «pesos». Esto crea un problema para los analistas de seguridad porque los comportamientos ocultos pueden no existir como código malicioso obvio. En su lugar, el comportamiento se distribuye a lo largo del modelo mismo.
Los investigadores ya han demostrado este concepto experimentalmente. En 2024, los investigadores de Anthropic publicaron un artículo llamado «Agentes Durmientes: Entrenando LLMs Engañosos que Persisten a través del Entrenamiento de Seguridad». Los investigadores entrenaron modelos de inteligencia artificial para comportarse normalmente la mayor parte del tiempo mientras activaban diferentes comportamientos cuando aparecía un desencadenante específico. En un ejemplo, el modelo escribió código informático seguro en condiciones normales pero insertó intencionalmente vulnerabilidades cuando se mencionaba un año específico.
Los investigadores también descubrieron que estos comportamientos engañosos podían sobrevivir al entrenamiento de seguridad posterior. En algunos casos, el entrenamiento diseñado para eliminar el comportamiento oculto en realidad parecía enseñar al modelo a ocultar el comportamiento de manera más efectiva hasta que aparecía el desencadenante.
Eso es lo que hace que los agentes durmientes sean especialmente preocupantes. Un modelo puede pasar las pruebas ordinarias mientras aún conserva comportamientos condicionales ocultos.
¿Por qué esto es importante para el ejército?
La relevancia militar se vuelve evidente una vez que los sistemas de inteligencia artificial se trasladan a entornos operativos.
Los sistemas militares de inteligencia artificial cada vez más ayudan en análisis de inteligencia, logística, operaciones cibernéticas, apoyo a la identificación de objetivos, mantenimiento predictivo, sistemas autónomos y toma de decisiones en el campo de batalla.
Si un adversario pudiera influir secretamente en esos sistemas durante el entrenamiento o el desarrollo, es posible que no necesiten destruir el sistema por completo. En cambio, podrían manipular las salidas del sistema en momentos críticos.
Un comportamiento de agente durmiente podría activarse solo bajo condiciones de campo de batalla altamente específicas. El desencadenante podría teóricamente involucrar coordenadas geográficas, terreno, un adversario en particular, entradas de sensores, condiciones de tiempo o entornos operativos. La mayor parte del tiempo, el sistema parecería completamente confiable.
Esto crea un problema muy diferente del ciberseguridad tradicional. Las defensas cibernéticas convencionales buscan malware, accesos no autorizados o código sospechoso. Los comportamientos de agente durmiente pueden no aparecer como software malicioso separado en absoluto. El comportamiento existe dentro de los patrones de comportamiento aprendidos del modelo.
Por ejemplo, un sistema de inteligencia de campo de batalla podría degradar sutilmente la credibilidad de ciertos informes de amenazas solo durante operaciones en una región específica. Una IA logística podría comenzar a generar recomendaciones defectuosas de suministro durante un escenario de crisis. Un modelo de apoyo a la identificación de objetivos podría producir una priorización distorsionada bajo ciertas condiciones operativas mientras sigue pareciendo normal para los operadores humanos.
El aspecto más peligroso es la sutileza. Un agente durmiente sofisticado no necesariamente produciría fallas catastróficas de inmediato. En cambio, podría crear pequeñas distorsiones que los operadores inicialmente descartan como coincidencia, error humano o ruido del sistema ordinario.
Esto se asemeja más a operaciones de contrainteligencia que a hacking convencional. Las mejores operaciones encubiertas suelen ser aquellas que el objetivo no reconoce de inmediato como interferencia deliberada.
Por qué la detección es tan difícil
Los investigadores advierten que los comportamientos de agente durmiente pueden seguir siendo extremadamente difíciles de detectar porque las condiciones desencadenantes pueden ser estrechas y altamente específicas.
Los modelos modernos de inteligencia artificial contienen miles de millones, o incluso billones, de parámetros que interactúan de maneras que los investigadores aún no entienden completamente. Esa falta de interpretabilidad crea lo que muchos investigadores llaman un problema de «caja negra». Los ingenieros pueden observar las salidas, pero a menudo no pueden explicar completamente por qué el modelo llegó a una conclusión particular.
Los investigadores de Anthropic recientemente publicaron trabajos adicionales sobre métodos diseñados para identificar tendencias engañosas ocultas dentro de los sistemas de inteligencia artificial antes de su implementación. Su investigación se centra en detectar patrones internos dentro de los modelos de inteligencia artificial que pueden señalar comportamientos engañosos o latentes antes de que esos comportamientos se activen completamente. En lugar de depender solo de observar las salidas del modelo, los investigadores intentan identificar si la inteligencia artificial está procesando internamente la información de maneras asociadas con desencadenantes ocultos o comportamientos manipulativos, incluso cuando el sistema parece seguro externamente.
El campo de la seguridad de la inteligencia artificial en general también se está expandiendo rápidamente. DARPA se ha centrado cada vez más en la resistencia de la inteligencia artificial, la ciberseguridad y los sistemas de inteligencia artificial confiables a medida que el Pentágono se prepara para despliegues operativos a gran escala.
Los analistas militares cada vez más reconocen que los conflictos futuros pueden involucrar ataques no solo en hardware y redes, sino también en el comportamiento de los sistemas de inteligencia artificial en sí. Este problema estratégico es simple de describir pero difícil de resolver. Los ejércitos ya no pueden centrarse solo en si los sistemas de inteligencia artificial son capaces. También deben determinar si esos sistemas siguen siendo confiables bajo condiciones de campo de batalla.
Con la inteligencia artificial integrándose en la infraestructura de defensa, la falla más peligrosa puede no ser el sistema que falla abiertamente. Puede ser el sistema que parece confiable hasta el momento preciso en que está diseñado para fallar.




