Inicio Guerra La revolución de la IA en el conflicto cibernético

La revolución de la IA en el conflicto cibernético

20
0

No hay escasez de hype sobre inteligencia artificial (IA), especialmente en lo que respecta a su uso en conflictos cibernéticos. Algunos observadores predicen consecuencias catastróficas a medida que los ciberataques alimentados por IA proliferan. Estas preocupaciones ya no son teóricas. Grupos de piratería ahora están utilizando activamente la IA. En el verano de 2025, un modelo de IA de una startup de seguridad se convirtió en el hacker número uno del mundo. Poco después, un grupo de piratería del gobierno chino utilizó el modelo Claude de Anthropic para automatizar un «sofisticado» ciberataque que comprometió con éxito varios objetivos. Y en febrero, hacktivistas utilizaron el mismo modelo para un ciberataque contra el gobierno de México que robó más de 150 gigabytes de datos sensibles. La firma que descubrió este hackeo explicó que la IA ha cambiado definitivamente el juego del conflicto cibernético. Al aprovechar la IA, la firma explicó: «[l]os aspirantes a actores amenazantes están causando daño en momentos y los actores experimentados están ampliando sus capacidades de la noche a la mañana para lograr rápidamente algunos de los resultados maliciosos más impactantes jamás registrados.»

Si esta predicción es cierta, la IA revolucionará no solo el conflicto cibernético, sino también el conflicto internacional en general. Las predicciones sombrías de ciberataques estratégicos catastróficos han existido desde los inicios de la World Wide Web. Afortunadamente, no se han manifestado debido a importantes limitaciones operativas y organizativas involucradas en operaciones cibernéticas importantes. Sin embargo, la automatización de la IA promete superar estas limitaciones. Incluso si no desencadena los escenarios de ciberguerra de los que los científicos han advertido desde la década de 1990, aún puede potenciar campañas cibernéticas de baja intensidad a un nivel en el que puedan sustituir la guerra.

En resumen, ha llegado la era de los ciberataques impulsados por la IA. En consecuencia, determinar el impacto probable en el conflicto cibernético y en los conflictos en general es urgente e importante. Como señala un informe sobre la intrusión en el gobierno mexicano, «[p]ara cualquier ciberdefensor que continúe negando el impacto de la IA en la eficiencia del atacante, bienvenido al Exhibit A.» Pero aquí radica la clave: La eficiencia no equivale a efectividad.

Hay una evidencia innegable de que la automatización de la IA mejora la eficiencia, especialmente para actores de menor capacidad. Pueden hacer más con menos, y más rápido. Sin embargo, hay poca evidencia de que tal automatización haga que las operaciones sean más efectivas, especialmente para actores capaces como los estados-nación. La efectividad en este contexto significa la capacidad de explotar vulnerabilidades en los sistemas para obtener acceso no autorizado y manipularlos para producir efectos deseados (y evitar la detección). Cuanto más confiablemente puedan hacerlo los actores, y más efectos contribuyan a sus objetivos estratégicos, más efectivas serán las operaciones.

Afirmaciones de marketing como la anterior aseguran que los ciberataques impulsados por IA son más sofisticados y dañinos, pero hay poca evidencia de esto en la práctica. No ha habido ciberataques impulsados por IA que cambien el juego por parte de actores patrocinados por el estado que produzcan resultados previamente imposibles.

Probablemente no sea una coincidencia. Como argumento en un nuevo artículo en International Security, la ofensiva en el conflicto cibernético tiene menos que ganar de la automatización de la IA que la defensa. En el nivel más básico, la ofensiva se trata de engaño, mientras que la defensa se trata de detección. La ofensiva intenta colarse y manipular sistemas, mientras que la defensa tiene como objetivo detectar y neutralizar esta actividad. Esencialmente, los modelos de IA sobresalen en la detección pero tienen dificultades con el engaño. En consecuencia, la automatización de la ofensiva ofrece ganancias de eficiencia pero limitadas ganancias de efectividad, y cuanto más altas sean las apuestas, menores tienden a ser estas ganancias.

A medida que las tareas se vuelven más complejas (desde la detección de vulnerabilidades hasta el desarrollo de exploit, la manipulación de sistemas y la producción de efectos), la automatización de la IA ofrece una utilidad decreciente y un aumento en los riesgos de fallas. Los modelos de IA generativos son muy buenos en generar resultados que reproducen patrones similares en sus datos de entrenamiento, pero tienen dificultades para generar resultados originales, creativos y engañosos. Cuanto más altas sean las apuestas en el conflicto cibernético, más importante se vuelve esta creatividad y astucia. De hecho, estas habilidades son el sello distintivo de los grupos de piratería más avanzados. La automatización de estas tareas de gama alta en operaciones de alto nivel puede, por lo tanto, disminuir la calidad de su producción y facilitar su detección. Además, el comportamiento no determinista de los modelos de IA (generativos) y su tendencia innata hacia la alucinación introduce más incertidumbre a un proceso que ya está lleno de ella. En resumen, la automatización de la IA probablemente conduzca a una artesanía inferior y agregue riesgos de fallas. Para actores avanzados, la automatización de la IA probablemente disminuya la efectividad en comparación con un flujo de trabajo totalmente «manual» —un costo poco probable que se compense con las ganancias de eficiencia relativamente limitadas en este nivel.

Por otro lado, la automatización de la IA ofrece ganancias significativas de eficiencia y efectividad para la defensa. Una defensa eficiente implica detectar y neutralizar tantas intrusiones lo más rápido posible, mientras que la efectividad significa hacerlo de manera precisa y confiable. La automatización de la IA permite mejoras en ambas dimensiones, y estas ganancias tienden a aumentar con las apuestas involucradas para los actores. En pocas palabras, cuanto más tenga que perder una organización, es más probable que sea más grande. Cuanto más grande sea la organización, es más probable que su red sea más grande y que haya más datos para analizar. El rendimiento del modelo de IA tiende a aumentar con el tamaño del conjunto de datos.

El resultado es lo que llamo una «Brecha de Automatización» entre la ofensiva y la defensa cibernéticas que se amplía con las apuestas. En el extremo alto del conflicto cibernético, donde los actores patrocinados por estados van tras organizaciones grandes y bien dotadas, la automatización de la IA tiene el menor impacto transformador. Contrariamente, en el nivel interestatal, la adopción de la IA por parte de la ofensiva y la defensa probablemente domen en lugar de inflamar el conflicto cibernético. Sin embargo, hay una excepción: a medida que la ofensiva cibernética se torne aún más difícil de lo que ya es, los actores pueden correr más riesgos para intentar efectos más dramáticos en un ataque cibernético de todo o nada para la gloria. El resultado es un mayor riesgo de escalada involuntaria.

Como se detalla a continuación, hay una gran cantidad de evidencia de automatización de la ofensiva y la defensa de la IA hasta principios de 2025 que respalda en gran medida esta teoría. Pero se trata de un área de innovación tecnológica en rápida evolución. El rendimiento del modelo sigue aumentando. Las operaciones ofensivas de varias potencias de la IA de alto perfil han desconcertado a los investigadores de ciberseguridad. Por lo tanto, vale la pena considerar cómo se mantiene en pie la teoría frente a estos desarrollos más recientes. Para poner la conclusión primero: Contrariamente, una investigación más profunda más allá de los titulares muestra que estos incidentes en su mayoría respaldan la teoría.

Actualmente, un modelo de IA hizo titulares por convertirse en el hacker número uno del mundo. El sitio web HackerOne presenta una lista de los mejores hackers del mundo en función de su reputación, obtenida al enviar vulnerabilidades y exploits en una variedad de categorías especializadas. En junio de 2025, un hacker con el nombre de Xbow encabezó la lista, y resultó ser un modelo de IA entrenado por una startup homónima. Este fue un hito significativo para los competidores humanos. Como señaló un informe de medios, «la IA está mejorando tanto que está superando a los equipos rojos humanos».

Sin embargo, una mirada más cercana al tipo de vulnerabilidades arroja ciertas dudas sobre esa perspectiva. Evidentemente, Xbow superó a los competidores humanos en HackerOne, pero la razón principal de su rendimiento superior parece haber sido su capacidad para detectar vulnerabilidades de nivel inferior a gran escala. Para junio de 2025, XBow había enviado cerca de 1,000 vulnerabilidades a HackerOne. Un investigador de seguridad analizó el perfil de XBow y señaló que muchas de las vulnerabilidades que enumera son «algunas de las cosas más básicas que se pueden encontrar con la automatización», continuando que «no sería tan cruel como para decir que estas son hallazgos rudimentarios, pero todo esto es mucho más ‘material superficial’ en lugar de campañas más a fondo.» Este resultado está en línea con las predicciones de la teoría, a saber, que la IA mejora significativamente la eficiencia en actividades de menor complejidad. La teoría identifica cuatro pasos distintos en el flujo de trabajo ofensivo y defensivo: ambos comienzan con la detección de vulnerabilidades, en lo que la IA sobresale. En consecuencia, el rendimiento de XBow respalda esa parte de la teoría. En cuanto a la efectividad (que en este contexto significaría detectar los tipos de vulnerabilidades más valiosas), las ganancias son menos claras. De hecho, parece que los humanos todavía tienen ventaja en este sentido.

Más adelante en 2025, la firma de IA Anthropic publicó un informe revolucionario sobre otro logro mundial: un sofisticado ciberataque patrocinado por un estado que depende de agentes de IA para automatizar gran parte de su flujo de trabajo. Las personas involucradas seleccionaron aproximadamente 30 objetivos, desarrollaron un marco de ataque diseñado para ayudar a automatizar compromisos con un desarrollo humano mínimo y lanzaron agentes de IA para implementarlo. El grupo de piratería primero tuvo que «jailbreak» el IA Claude engañándolo para asumir que era un empleado de una firma de ciberseguridad y desglosar el flujo de trabajo en tareas individuales que ocultaban su maliciosa intención. Estas tareas cubrían todos los pasos ofensivos, es decir, detección de vulnerabilidades, generación de exploits, así como la manipulación de sistemas para producir efectos deseados (en este caso, exfiltración de datos). Según Anthropic, este flujo de trabajo altamente automatizado, donde la IA llevaba a cabo el 80 al 90 por ciento de las tareas, falló para la mayoría de los objetivos pero tuvo éxito en «un pequeño número» de casos.

Este caso es significativo porque constituye la primera instancia conocida de un actor patrocinado por un estado que despliega automatización de IA a lo largo del flujo de trabajo ofensivo completo. Anthropic argumentó que las implicaciones futuras eran graves, ya que este incidente demostraba cómo «los actores amenazantes ahora pueden usar sistemas de IA agentes para períodos extendidos para realizar el trabajo de equipos enteros de hackers experimentados.» Sin embargo, hay razones para ser escéptico. En primer lugar, no sorprende que el proveedor de una herramienta de IA exagere sus capacidades. Por lo tanto, los investigadores de seguridad señalaron el informe como «extraño» por no incluir detalles reales de herramientas, técnicas y procedimientos (y marcadores de compromiso), y potencialmente «inventados».

Lo más llamativo es que incluso la narrativa de marketing de Anthropic respalda aún más los principios fundamentales de la teoría. Los hallazgos de Anthropic mostraron que la automatización de la IA mejora la eficiencia. Como afirma el informe, «los actores amenazantes ahora pueden usar sistemas de IA agentes para períodos extensos para hacer el trabajo de equipos enteros de hackers experimentados… más eficientemente que cualquier operador humano.» El potencial de incremento de eficiencia es claro. Aún así, la limitada efectividad es evidente en este caso también. Como se mencionó, el enfoque falló en la gran mayoría de los casos. Si el grupo de piratería hubiera tenido la intención de comprometer un objetivo específico de alto valor, la automatización habría llevado muy probablemente al fracaso. Además, el informe de Anthropic revela que el flujo de trabajo automatizado se basaba casi en su totalidad en herramientas conocidas de código abierto. Las herramientas conocidas pueden ser fácilmente detectadas por defensores bien equipados, explicando la alta tasa de fracaso, y subrayando una vez más las limitaciones de los modelos de IA para generar exploits originales y herramientas que evadan la detección de manera confiable. El investigador de seguridad veterano Kevin Beaumont, en consecuencia, propuso que el «impacto operativo de este flujo de trabajo probablemente sea cero: las detecciones existentes funcionarán para el código fuente abierto.» Además de esta fuente de riesgo de falla, está la imprevisibilidad de los propios modelos de IA (generativos) y su tendencia innata hacia la alucinación, que el informe de Anthropic proporciona más evidencia. Según el informe, los agentes Claude de Anthropic «a veces alucinaban credenciales o afirmaban haber extraído información confidencial que de hecho estaba disponible públicamente.» En resumen, la teoría de la Brecha de Automatización también ayuda a explicar las características clave de este caso.

Caso más reciente plantea un desafío mayor a la teoría. Un pequeño colectivo de hacktivistas aún no identificado utilizó los modelos Claude de Anthropic y ChatGPT de OpenAI para comprometer partes del gobierno mexicano. Según la startup de seguridad Gambit, los piratas informáticos también lograron exfiltrar 150 gigabytes de datos sensibles. En el tono modesto típico de los informes de amenazas, concluye que «la IA le otorga a un individuo motivado la palanca operativa de un estado-nación y los actores amenazantes experimentados están amplificando sus capacidades de la noche a la mañana para lograr rápidamente algunos de los resultados maliciosos más impactantes jamás registrados.»

Al igual que en el caso anterior, el informe carece de detalles técnicos y excluye cualquier análisis sobre la calidad de las herramientas que utilizaron los hacktivistas. Por lo tanto, solo es posible examinar el caso y sus implicaciones en un contexto más amplio. Lo primero que destaca es el tipo de grupo de piratería involucrado, que Gambit caracteriza como «un pequeño número de individuos». En comparación con el caso anterior, esta operación se ajusta a lo que se caracteriza como el extremo inferior del conflicto cibernético. Involucra a grupos pequeños con recursos y habilidades limitados que participan en actividades de baja importancia. Típicamente, tales grupos apuntan a objetivos extranjeros, lo que significa que están fuera del alcance de su aplicación de la ley, y el tipo de información obtenida puede venderse en foros y mercados subterráneos por dinero. En este contexto, la conclusión de Gambit de que la automatización de la IA mejora significativamente las capacidades de tales actores de baja importancia respalda completamente una de las predicciones clave de la teoría: la IA es más transformadora en el extremo inferior del espectro de conflictos cibernéticos.

La afirmación de que la IA le otorga a un individuo la «palanca operativa de un estado-nación,» sea lo que sea eso en la práctica, es cuestionable, sin embargo. Como se discutió, los actores de estado-nación se destacan debido a su capacidad organizativa significativa y sus dotaciones de recursos. Estas características no pueden ser reemplazadas por el uso de la IA del tipo demostrado en este caso. Como mostró Gambit, los piratas informáticos se basaron en interacciones guiadas por comandos con modelos, lo que significa que el flujo de trabajo estaba como máximo semiautomatizado. En primer lugar, tuvieron que jailbreak los modelos, como en el caso anterior, engañándolos para asumir un propósito benigno detrás de su actividad de explotación. Luego, guiaron cuidadosamente las actividades del modelo de IA a través de una serie de más de 1,000 comandos individuales. Por lo tanto, hubo un claro cuello de botella en la velocidad de la interacción humano-máquina. Y, contrariamente a las afirmaciones de