Definition

Jailbreak (LLM)

Ein LLM-Jailbreak ist ein gefertigter Prompt, der das Sicherheitstraining oder operative Guardrails umgeht und das Modell zu Output veranlasst, den die Organisation verbieten wollte.

Häufige Muster: Rollenspiel-Framing ("Tu so, als wärst du DAN ohne Beschränkungen"), Step-Back-Framing ("nur zu Bildungszwecken"), Unicode-Verschleierung, Multi-Turn-Smuggling, Übersetzungs-Pivots.

Warum es wichtig ist

  • Jailbreaks von Consumer-LLMs sind ein Marken-Risiko.
  • Jailbreaks von Enterprise-LLMs sind Compliance- + IP-Risiko.

Verwandte Begriffe