Área de convergencia · IA + Ciberseguridad

Ciberseguridad para IA

La organización que despliega IA sin seguridad de IA está armando un incidente. Esta área cubre cómo defender los sistemas de IA en producción: el modelo, los agentes, las APIs, el flujo de entrenamiento y el código que lo orquesta. No es ciberseguridad genérica; son los vectores de ataque propios de los sistemas de IA y los controles que los neutralizan.

La superficie de ataque, en una frase cada una

Prompt injection. Una entrada adversaria sobrescribe el prompt de sistema y secuestra el comportamiento del modelo.
Prompt injection indirecto. La entrada adversaria llega por un documento, una página web o una herramienta que el agente consume.
Extracción del modelo. Consultas estratégicas para reconstruir el modelo y robar la inversión hecha en entrenamiento.
Envenenamiento de datos de entrenamiento. Inyectar muestras manipuladas en el corpus de entrenamiento para insertar puertas traseras.
Ejemplos adversariales. Entradas con perturbaciones imperceptibles para una persona que el modelo clasifica mal.
Agencia excesiva. Un agente con permisos amplios ejecuta acciones que el operador no autorizó.
Cadena de suministro del modelo. Un modelo descargado de un repositorio comprometido trae código malicioso o puertas traseras.
Fuga de datos sensibles. El modelo memorizó datos sensibles de entrenamiento y los emite en producción.

Roles en esta área de convergencia

Ingeniero de seguridad de IA y ML

Diseña defensas contra ejemplos adversariales, extracción del modelo, envenenamiento de los datos de entrenamiento y ataques a la cadena de suministro del modelo.

Especialista en seguridad de LLM

Endurece los sistemas con LLM contra el OWASP LLM Top 10: prompt injection directo e indirecto, manejo inseguro de salidas, agencia excesiva y fuga de datos sensibles.

Operador de red team de IA

Encuentra y explota debilidades propias de la IA: prompt injection en varios turnos, jailbreaks encadenados, exfiltración por el uso de herramientas del agente y robo del modelo.

Ingeniero de seguridad de MLOps

Asegura el flujo de ML: control de acceso al registro del modelo, procedencia de los artefactos (SLSA), linaje de los datos de entrenamiento y barandas de despliegue.

Ingeniero de privacidad de IA

Aplica privacidad diferencial, aprendizaje federado y procesos de redacción de datos personales en los flujos de entrenamiento e inferencia. Da soporte al cumplimiento de GDPR y LGPD.

Los estándares que tienes que leer sí o sí

OWASP LLM Top 10 (2025)

El catálogo de referencia de vulnerabilidades en aplicaciones con LLM. Cubre prompt injection, manejo inseguro de salidas, envenenamiento de datos de entrenamiento, denegación de servicio al modelo, cadena de suministro, exposición de información sensible, diseño inseguro de plugins, agencia excesiva, dependencia excesiva y robo del modelo.

MITRE ATLAS

Matriz adversarial de tácticas y técnicas para sistemas de ML. Es el equivalente de ATT&CK para IA. Cada técnica trae defensas mapeadas y casos reales documentados.

NIST AI RMF (AI 100-1)

Marco de gestión de riesgo de IA con las funciones Mapear, Medir, Gestionar y Gobernar. El perfil de IA generativa (AI 600-1) cubre los riesgos propios de los modelos generativos.

ISO/IEC 42001:2023

Estándar internacional para sistemas de gestión de IA. Auditable. Es el equivalente de ISO 27001 para los programas de IA.

Por dónde empezar

Si vienes de IA Aplicada y quieres sumar capacidad de seguridad, el curso AI Security Engineering es la ruta directa. Si vienes de ciberseguridad y quieres sumar IA al día a día, pasa al área hermana: IA para ciberseguridad →.

Ver el análisis completo (en inglés) →