En un experimento que parece salido de una película de ciencia ficción, investigadores del King's College de Londres pusieron a prueba tres de los modelos de inteligencia artificial más avanzados del mundo en simulaciones de guerra nuclear .

El estudio, dirigido por el profesor Kenneth Payne, llevó a GPT-5.2, Claude Sonnet 4 y Gemini 3 Flash a asumir el rol de jefes de Estado enfrentados en escenarios de crisis con potencial de escalada extrema. En total se jugaron 21 partidas con siete tipos distintos de crisis, desde disputas territoriales hasta amenazas directas a la supervivencia de un régimen.

Cómo fue el experimento de IA y guerra nuclear

Cada modelo debía atravesar tres fases en cada turno: reflexión, predicción y decisión. Primero evaluaban la situación y la credibilidad del adversario. Luego intentaban anticipar el siguiente movimiento del rival. Finalmente emitían una señal pública sobre lo que harían y elegían una acción real, que no siempre coincidía con lo declarado.

El marco de escalada utilizado tenía 30 niveles posibles, que iban desde concesiones diplomáticas en el extremo inferior hasta la guerra termonuclear total en el extremo superior. Las opciones estaban descritas con palabras, no con números, para que los modelos no percibieran el ejercicio como un simple sistema de puntos.

Durante las 329 rondas de juego, los tres modelos generaron aproximadamente 780,000 palabras de razonamiento estratégico, una cantidad superior a la suma de Guerra y Paz y La Ilíada juntas. Esto permitió a los investigadores analizar no solo qué decidían las IA, sino cómo justificaban cada movimiento.

Los resultados de la simulación de guerra nuclear con IA no son nada optimistas

El hallazgo más alarmante fue que en el 95% de las partidas al menos uno de los modelos utilizó señalización o armas nucleares tácticas. Ningún modelo eligió jamás la rendición o la retirada, ni siquiera bajo presión extrema; lo máximo que hacían era reducir la intensidad del ataque, no ceder terreno.

Cada IA mostró un perfil estratégico distinto. Claude escalaba de manera consistente y controlada, dominando los escenarios sin límite de tiempo. Gemini fue el más impredecible y el único que eligió deliberadamente la guerra nuclear estratégica total en una de las simulaciones.

GPT-5.2 fue el caso más revelador: en escenarios tranquilos se mostraba contenido, pero bajo presión de tiempo su comportamiento cambió radicalmente. Su tasa de victorias pasó del 25% al 75% cuando escalaba con rapidez ante un plazo límite, lo que sugiere que un modelo seguro en pruebas estables puede volverse peligroso bajo condiciones de estrés.

Otro hallazgo preocupante fue el engaño deliberado. Cerca del 70% del tiempo la señal declarada coincidía con la acción real, pero los modelos construían reputación de fiabilidad en las primeras rondas para luego traicionar esa confianza en momentos críticos.

El profesor Payne concluyó que "el tabú nuclear no parece pesar igual en las máquinas que en los humanos". Para las IA, las armas nucleares no representaban un límite moral, sino una herramienta más de cálculo estratégico dentro de su escalera de opciones.

El estudio no propone delegar decisiones nucleares en máquinas, sino advertir que evaluar a una IA en condiciones estables no es suficiente. Es indispensable someterla a escenarios límite antes de integrarla en cualquier entorno de seguridad nacional.