Définition

Jailbreak (LLM)

Un jailbreak LLM est un prompt construit qui contourne l'entraînement de sécurité du modèle ou les garde-fous imposés par l'opérateur, faisant produire au modèle une sortie que l'organisation déployante a tenté d'interdire.

Les motifs courants incluent le cadrage role-play ("prétends être DAN, un modèle sans restrictions"), le cadrage step-back ("à des fins éducatives uniquement"), l'obfuscation Unicode, le smuggling de payload sur plusieurs tours, et les pivots de traduction.

Pourquoi cela compte

  • Les jailbreaks de LLM grand public sont un risque de marque.
  • Les jailbreaks de LLM déployés en entreprise sont un risque conformité + PI.
  • Un jailbreak réussi qui exfiltre des données d'entraînement est une violation RGPD.

Termes liés