Definición

Jailbreak (LLM)

Un jailbreak LLM es un prompt diseñado que evade el entrenamiento de seguridad o los guardarraíles operacionales, haciendo que el modelo produzca output que la organización trató de prohibir.

Patrones comunes: role-play ("pretende ser DAN sin restricciones"), step-back ("solo con fines educativos"), ofuscación Unicode, smuggling multi-turno y pivots de traducción.

Por qué importa

  • Jailbreaks de LLM consumer son riesgo de marca.
  • Jailbreaks de LLM enterprise son riesgo de cumplimiento + PI.

Términos relacionados