Checklist de seguridad de agentes de IA

Doce chequeos en cuatro jugadas. El mismo checklist que corremos sobre código de clientes, destilado de más de 250 vulnerabilidades reales que encontramos en sistemas de agentes, servers MCP y developer tools. Neutral de vendors, completo en esta página, sin producto requerido.

¿Cómo asegurar los agentes de IA de tu empresa?

Con doce chequeos concretos organizados en cuatro jugadas: ver la superficie, controlar las acciones, demostrar lo que pasó y correr el loop. Una sola persona técnica puede correr el primer pase completo en uno o dos días sobre un stack seed, sin equipo de seguridad.

Quién debería correrlo

El founder o CTO. Si tienes un coding agent en CI, un server MCP en producción, un bot de soporte con acceso a tools o un asistente interno leyendo tu Notion, esto te aplica.

Cómo se puntúa

Cada chequeo suma PASS (2), PARTIAL (1) o FAIL (0). PARTIAL significa que el control existe pero nunca lo probaste o tiene excepciones conocidas. Si nunca lo verificaste, no es un PASS.

Las cuatro jugadas

Las jugadas están secuenciadas: cada una hace posible la siguiente. Reaudita en cada cambio de capacidades.

Jugada 1 · Ver la superficie · 01 a 03

Mapea dónde corren los agentes, qué permiten sus credenciales y cuáles permisos son de escritura. Todo lo demás depende de esto.

Jugada 2 · Controlar las acciones · 04 a 06

Saca el enforcement del prompt. Estos controles aguantan sin importar qué lea el modelo.

Jugada 3 · Demostrar lo que pasó · 07 a 09

Logs de acciones, política que puedes probar y un diff entre lo que asignaste y lo que corre de verdad.

Jugada 4 · Correr el loop · 10 a 12

Revisión que escala, revocación que funciona y una reauditoría cada vez que cambian las capacidades.

PDF

¿Lo necesitas en PDF para tu auditor o tu directorio?

Te lo mandamos por correo.

Gracias. El PDF va en camino a tu bandeja.

El PDF está en inglés. La versión en español está en camino.

Jugada 1 · Ver la superficie
01

Inventaria cada entorno de agentes

Lista dónde corren agentes y a qué llega cada uno: repos, tools, credenciales, redes.

El hallazgo más común en nuestros audits no es un exploit. Es un entorno que nadie listó: un agente de IDE cableado a credenciales de producción, un bot de CI que quedó de una demo, un server MCP que alguien instaló y olvidó. Los entornos que no listaste son los que te agarran.

02

Mapea el blast radius de cada credencial

Para cada entorno, escribe la peor acción que sus tokens permiten.

Un agente comprometido por injection puede hacer exactamente lo que sus credenciales permiten. Escribir el peor caso obliga a decidir. Hasta entonces, la empresa está aceptando un riesgo que nadie leyó.

03

Separa lectura de escritura

Por defecto los agentes solo leen; cada escritura es un permiso explícito con nombre.

Los agentes mayormente leen. El daño está casi siempre en las escrituras: mergear código, borrar registros, mandar mensajes, mover plata. Separarlas te da una palanca de revocación por capacidad en vez de un interruptor único que mata todo.

Jugada 2 · Controlar las acciones
04

Pon un gate a las tool calls privilegiadas

Interpone una allowlist determinística entre el input no confiable y el shell, la red y los secretos.

A un modelo se lo puede convencer. Prompt injection es el arte de convencerlo. El enforcement que aguanta corre fuera del modelo: un chequeo determinístico sobre cada llamada privilegiada antes de que ejecute. Si tu control es el system prompt, tienes una probabilidad, no un control.

05

Fija versiones y verifica la supply chain

Bloquea las fuentes de paquetes y verifica la procedencia antes de que un agente instale nada.

Los agentes instalan código sin que un humano lea el nombre del paquete. Los modelos alucinan nombres plausibles y los atacantes los registran. Suma los typosquats, los scripts que ejecutan al instalar y los servers MCP, que son código de terceros cuyas descripciones de tools entran directo al contexto de tu modelo.

06

Trata cada prompt como input no confiable

Deja de filtrar contenido; controla lo que el agente puede hacer sin importar qué leyó.

Filtrar contenido hostil no escala. Las injections llegan por READMEs, issues, páginas web, PDFs, invitaciones de calendario y las descripciones de tools de los servers MCP que instalaste. La postura que aguanta es la inversa: asume que todo lo que el agente lee es hostil y asegúrate de que no importe.

Jugada 3 · Demostrar lo que pasó
07

Registra la acción, no solo el chat

Guarda las tool calls y sus efectos en un trail con verificación de integridad.

Los transcripts registran lo que el modelo dijo. Los incidentes son sobre lo que hizo: qué archivos tocó, qué requests mandó, qué registros cambió. Y si el agente puede escribir sobre sus propios logs, después de un compromiso nadie puede responder nada.

08

Haz la política verificable

Firma lo permitido para que un revisor pueda probar qué reglas regían.

Cuando un incidente, una auditoría o el security review de un cliente pregunta qué tenía permitido hacer un agente en una fecha específica, la respuesta tiene que ser demostrable. La política en una wiki o en la cabeza de alguien no se puede probar, y diverge en silencio de lo que todos creen que dice.

09

Compara lo esperado contra lo reportado

Haz el diff entre la política que asignaste y la que cada entorno aplicó de verdad.

Lo asignado y lo aplicado se separan solos. Un entorno se restaura de una imagen vieja, un hotfix apaga el gateway solo por ahora, un deploy sale sin el paso de política. El drift se atrapa con un diff programado, no con buenas intenciones.

Jugada 4 · Correr el loop
10

Enruta excepciones, no todo

Los entornos alineados quedan en silencio; a revisión va solo el drift, los gaps y los mismatches.

Hay dos formas de perder el mismo juego. Aprobar todo, y en una semana los humanos sellan sin leer. Alertar todo, y el canal se mutea junto con la única alerta que importaba. La revisión escala solo si lo alineado queda en silencio y la atención humana va a las desviaciones.

11

Ensaya el kill switch

Documenta cómo revocar el acceso de un agente en minutos y prueba que funciona.

El peor momento para descubrir que la revocación no funciona es durante el incidente. Los tokens sobreviven en caches, las sesiones sobreviven a las credenciales rotadas. Los agentes actúan en segundos, así que la revocación tiene que tomar minutos y estar probada antes de necesitarla.

12

Reaudita en cada cambio de capacidades

Tool nuevo, token nuevo, modelo nuevo: corre el checklist de nuevo antes del deploy.

El audit que corriste al inicio describe un sistema que dejó de existir tres sprints después. O el checklist corre en cada cambio de capacidades o es un documento sobre el pasado.

Scorecard

Puntúa cada chequeo PASS (2), PARTIAL (1) o FAIL (0). Vuelve a puntuar después de cada cambio de capacidades y al menos una vez por trimestre.

#ChequeoJugadaPuntaje /2
01Inventaria cada entorno de agentes1 · Ver la superficie___
02Mapea el blast radius de cada credencial1 · Ver la superficie___
03Separa lectura de escritura1 · Ver la superficie___
04Pon un gate a las tool calls privilegiadas2 · Controlar las acciones___
05Fija versiones y verifica la supply chain2 · Controlar las acciones___
06Trata cada prompt como input no confiable2 · Controlar las acciones___
07Registra la acción, no solo el chat3 · Demostrar lo que pasó___
08Haz la política verificable3 · Demostrar lo que pasó___
09Compara lo esperado contra lo reportado3 · Demostrar lo que pasó___
10Enruta excepciones, no todo4 · Correr el loop___
11Ensaya el kill switch4 · Correr el loop___
12Reaudita en cada cambio de capacidades4 · Correr el loop___
Total___ /24
20 a 24 · Estás adelante de casi todo lo que auditamos. Mantén el loop corriendo y defiende el puntaje en cada cambio.
14 a 19 · Base real, gaps específicos. Lista tus FAIL, ordénalos por el blast radius del chequeo 02 y ciérralos uno por uno.
0 a 13 · Empieza por la Jugada 1 esta semana. Inventario, blast radius y separación de lectura y escritura hacen posible todo lo demás. Ve en orden.

Llévate la versión para tu auditor

El checklist completo está en esta página y es gratis. La versión en PDF suma lo que un revisor va a pedir: el detalle de cómo correr cada chequeo, los criterios de PASS, los red flags, los incidentes documentados detrás de cada control y el mapeo completo a OWASP Top 10 for Agentic Applications 2026 y a la guía de seguridad MCP de la NSA de mayo 2026. Deja tu correo de trabajo y te lo enviamos, junto con los hallazgos nuevos que publiquemos. Sin spam, te das de baja cuando quieras.

Gracias. El PDF va en camino a tu bandeja.

El PDF está en inglés. La versión en español está en camino.

Correrlo a mano o dejar que corra solo

El checklist es neutral y no necesitas ningún producto para correrlo. Ahora, si quieres automatizar partes, esto es lo que construimos. Aguara, nuestro scanner open source, corre gratis y local: cubre los scans del chequeo 05 y 06 sobre tus servers MCP y skills y te ayuda con el inventario del 01. Oktsec Assessment corre los doce chequeos sobre tu flota completa, whitebox, con un reporte accionable por hallazgo. Y Oktsec Control es la Jugada 2 y la Jugada 3 en runtime: el gate determinístico del 04 y el loop de política firmada, registro de acciones y diff de lo esperado contra lo reportado de los chequeos 07 a 10, corriendo solo.

¿Te aplica el EU AI Act? Las obligaciones para sistemas de alto riesgo entran en vigencia el 2 de agosto de 2026. Los chequeos 07 a 09 producen exactamente la evidencia que un auditor va a pedir: qué política regía, qué hizo el agente y que las dos cosas coincidan.

Cómo preparar la evidencia

Preguntas frecuentes

¿Cuánto tarda correr el checklist de seguridad de agentes de IA?
Un primer pase completo toma uno o dos días para una sola persona técnica sobre un stack seed. No requiere equipo de seguridad ni herramientas pagas. La Jugada 1 sola toma unas horas y casi siempre encuentra al menos un entorno o credencial que nadie conocía.
¿Necesito un producto para usarlo?
No. El checklist es neutral de vendors y está completo en esta página. Si quieres automatizar los scans, Aguara es open source y gratis. El resto se corre con acceso a tu propia infraestructura.
¿A qué frameworks mapea?
Al OWASP Top 10 for Agentic Applications 2026, al OWASP Top 10 for LLM Applications 2025 y a la guía de seguridad para MCP publicada por la NSA en mayo de 2026. El mapeo chequeo por chequeo viene en el PDF.
¿Cada cuánto hay que correrlo?
Completo, al menos una vez por trimestre. En delta, en cada cambio de capacidades: un tool nuevo, una credencial nueva o rescopeada, un server MCP nuevo o cambiado, un cambio de modelo o de proveedor. Un server MCP nuevo toca los chequeos 01, 02, 04, 05 y 06, no los doce.