Traducción pendiente. Esta definición aún no está traducida al español. Leer la versión en inglés.

Jailbreak

An input pattern that bypasses an AI model's safety training and gets it to produce content the developer tried to prevent. Jailbreaks include role-play prompts, encoded instructions, and prompts that exploit system-prompt leakage. New jailbreaks appear constantly, which is why most production systems layer model-level safety with input and output filters.

Definición editorial de DecipherU. Para definiciones técnicas autorizadas, consulta NIST AI RMF, ISO/IEC 42001, o las publicaciones oficiales de los laboratorios de IA.