Definición
Jailbreak (LLM)
Un jailbreak LLM es un prompt diseñado que evade el entrenamiento de seguridad o los guardarraíles operacionales, haciendo que el modelo produzca output que la organización trató de prohibir.
Patrones comunes: role-play ("pretende ser DAN sin restricciones"), step-back ("solo con fines educativos"), ofuscación Unicode, smuggling multi-turno y pivots de traducción.
Por qué importa
- ✓Jailbreaks de LLM consumer son riesgo de marca.
- ✓Jailbreaks de LLM enterprise son riesgo de cumplimiento + PI.