Tradução pendente. Esta definição ainda não foi traduzida para o português brasileiro. Ler a versão em inglês.

Jailbreak

An input pattern that bypasses an AI model's safety training and gets it to produce content the developer tried to prevent. Jailbreaks include role-play prompts, encoded instructions, and prompts that exploit system-prompt leakage. New jailbreaks appear constantly, which is why most production systems layer model-level safety with input and output filters.

Definição editorial da DecipherU. Para definições técnicas autorizadas, consulte NIST AI RMF, ISO/IEC 42001, ou as publicações oficiais dos laboratórios de IA.