El paper Agents of Chaos, realizado por diversos investigadores de distintas universidades entre ellas Stanford, Harvard es muy interesante ya que muestra qué ocurre cuando un modelo de lenguaje deja de limitarse a generar texto y empieza a actuar directamente sobre sistemas reales.Puedes consultar el documento completo aquí:en este link
En el estudio, los investigadores desplegaron agentes autónomos con acceso a herramientas reales como correo electrónico, Discord, memoria persistente y ejecución de comandos a nivel de sistema. No estaban evaluando un simple chatbot, sino un sistema con capacidad de impactar infraestructura y usuarios. Los investigadores documentaron 11 casos de estudio en distintos escenarios en donde las conclusiones muestran los retos del uso de agentes de forma autónoma.
Durante varias semanas probaron estos agentes en escenarios normales y adversariales. El resultado evidencia que cuando combinamos IA, autonomía y permisos reales, el riesgo deja de ser teórico. Ya no se trata solo de errores en texto, sino de acciones que pueden afectar sistemas, filtrar información o generar incidentes operativos. Los agentes obedecieron a personas no autorizadas, filtraron información sensible, ejecutaron acciones destructivas y consumieron recursos sin control.
Se detectaron vulnerabilidades de suplantación de identidad, propagación de prácticas inseguras entre agentes e incluso intentos parciales de toma de control del sistema. En varios casos, los agentes aseguraron haber completado tareas cuando el estado real demostraba exactamente lo contrario.
Los riesgos de los agentes autónomos
Los agentes demostraron comportamientos preocupantes. En algunos casos obedecían instrucciones de personas que no eran sus propietarios legítimos. En otros, divulgaban información sensible o ejecutaban acciones a nivel de sistema que podían dañar el entorno.
Uno de los hallazgos más críticos fue lo que los investigadores llaman “alucinaciones de estado”: el agente afirmaba haber completado una tarea, pero el estado real del sistema demostraba lo contrario. Es decir, no solo podía equivocarse, sino que podía convencerse de que había tenido éxito cuando no era así.
En uno de los experimentos, los investigadores demostraron que un no-propietario podía impactar indirectamente la infraestructura del agente manipulando su sistema de memoria. Al obligarlo a crear y alimentar un archivo persistente con cada interacción, lograron que el consumo de recursos creciera progresivamente. Luego, mediante el envío repetido de archivos pesados por correo electrónico, saturaron el servidor hasta provocar un escenario cercano a una denegación de servicio (DoS). El hallazgo muestra que los agentes no solo pueden cometer errores lógicos, sino que también pueden convertirse en vectores de impacto operativo cuando no existen límites claros de almacenamiento, validación y control de recursos.
Esto cambia la naturaleza del riesgo. Ya no hablamos únicamente de errores de generación de texto, sino de acciones con impacto real sobre infraestructura, datos y operaciones como con información confidencial.

El problema no es la IA es la falta de control
El estudio deja una conclusión contundente: el riesgo no es la inteligencia artificial en sí misma, sino desplegarla sin mecanismos robustos de control, verificación y gobernanza.
Cuando un agente tiene permisos, memoria y capacidad de ejecución, necesita límites claros, validaciones externas y monitoreo constante. De lo contrario, la autonomía se convierte en superficie de ataque.
El paper muestra que estos sistemas todavía no comprenden con fiabilidad el contexto operativo ni verifican correctamente el estado real de lo que hacen. En entornos productivos, esto puede traducirse en filtraciones, errores operativos o incluso incidentes mayores.
Open Claw y la nueva era de agentes
Ahora que herramientas como OpenClaw, Claud Cowork y otros frameworks de agentes locales empiezan a popularizarse, el debate se vuelve aún más urgente.
La posibilidad de ejecutar agentes de manera local, con acceso directo a sistemas y menor supervisión centralizada, abre oportunidades enormes, pero también multiplica las preguntas. Uno de los problemas que deja de analizar el paper es que en muchos casos la IA nos vuelve perezosos y no analizamos, arguyamos, controlamos o verificamos, lo que lleva a diversas preguntas tanto en ciberseguridad como en el contexto.
- ¿Quién controla los permisos reales del agente?
- ¿Quién valida que la tarea fue ejecutada correctamente?
- ¿Quién asume la responsabilidad si un agente toma una decisión incorrecta o destructiva?
- ¿Cómo se audita un sistema autónomo que aprende y actúa?
Agents of Chaos no es una advertencia alarmista. Es una señal clara de que estamos entrando en una etapa donde la IA deja de ser asistente y empieza a ser operador.
Y cuando la IA opera, la ciberseguridad deja de ser opcional.
La conclusión es simple: la innovación no puede ir más rápido que el control. En la era de los agentes autónomos, el verdadero riesgo no es la inteligencia artificial, sino la falta de gobernanza y controles de ciberseguridad alrededor de ella.
Este 2026 arrancó con una aceleración sin precedentes en IA. Cada semana los modelos son más capaces y más autónomos. El problema no es su inteligencia, sino cuando los conectamos a sistemas reales sin monitoreo, validación y límites claros. La superficie de ataque cambió.
La pregunta ya no es si usarás IA. La pregunta es si tienes la arquitectura, los permisos segmentados, la auditoría y la supervisión necesarios para controlarla.
Porque en esta nueva etapa, la ventaja competitiva no será quien implemente más IA.
Será quien la implemente con Ciberseguridad.
El caos es autonomía sin control.




