Définition
Jailbreak (LLM)
Un jailbreak LLM est un prompt construit qui contourne l'entraînement de sécurité du modèle ou les garde-fous imposés par l'opérateur, faisant produire au modèle une sortie que l'organisation déployante a tenté d'interdire.
Les motifs courants incluent le cadrage role-play ("prétends être DAN, un modèle sans restrictions"), le cadrage step-back ("à des fins éducatives uniquement"), l'obfuscation Unicode, le smuggling de payload sur plusieurs tours, et les pivots de traduction.
Pourquoi cela compte
- ✓Les jailbreaks de LLM grand public sont un risque de marque.
- ✓Les jailbreaks de LLM déployés en entreprise sont un risque conformité + PI.
- ✓Un jailbreak réussi qui exfiltre des données d'entraînement est une violation RGPD.