Definition

Prompt-Injection

Prompt-Injection ist ein Angriff, bei dem nicht vertrauenswürdiger Text im LLM-Input (via Dokument, Webseite, Tool-Antwort oder Nutzer-Prompt) die ursprünglichen Anweisungen des Entwicklers überschreibt und das Modell zu unerlaubten Aktionen bringt.

Prompt-Injection hat zwei Hauptformen. Direkte Injection: ein Nutzer überschreibt mit einer Anweisung den System-Prompt. Indirekte Injection: ein Angreifer platziert Anweisungen in Inhalten, die das Modell später liest (Lebenslauf, Webseite, DB-Zeile) — beim Verarbeiten führt das Modell die platzierten Anweisungen aus.

Warum es wichtig ist

  • Prompt-Injection ist in den OWASP LLM Top 10 — Risiko LLM01.
  • KI-Agenten, die E-Mails lesen, browsen oder DBs abfragen, erben das Vertrauensgrenzen-Problem jeder Quelle.
  • Artikel 53 EU AI Act verpflichtet Anbieter, Resilienz gegen adversariale Eingaben zu dokumentieren.

Häufige Fragen

Lässt sich Prompt-Injection vollständig verhindern?

Nein, nicht allein auf Modellebene. Verteidigung erfordert geschichtete Kontrollen: Pre-Prompt-Filterung, Output-Validierung und Capability-Beschränkung des Agenten.

Verwandte Begriffe