Definition
Prompt-Injection
Prompt-Injection ist ein Angriff, bei dem nicht vertrauenswürdiger Text im LLM-Input (via Dokument, Webseite, Tool-Antwort oder Nutzer-Prompt) die ursprünglichen Anweisungen des Entwicklers überschreibt und das Modell zu unerlaubten Aktionen bringt.
Prompt-Injection hat zwei Hauptformen. Direkte Injection: ein Nutzer überschreibt mit einer Anweisung den System-Prompt. Indirekte Injection: ein Angreifer platziert Anweisungen in Inhalten, die das Modell später liest (Lebenslauf, Webseite, DB-Zeile) — beim Verarbeiten führt das Modell die platzierten Anweisungen aus.
Warum es wichtig ist
- ✓Prompt-Injection ist in den OWASP LLM Top 10 — Risiko LLM01.
- ✓KI-Agenten, die E-Mails lesen, browsen oder DBs abfragen, erben das Vertrauensgrenzen-Problem jeder Quelle.
- ✓Artikel 53 EU AI Act verpflichtet Anbieter, Resilienz gegen adversariale Eingaben zu dokumentieren.
Häufige Fragen
Lässt sich Prompt-Injection vollständig verhindern?
Nein, nicht allein auf Modellebene. Verteidigung erfordert geschichtete Kontrollen: Pre-Prompt-Filterung, Output-Validierung und Capability-Beschränkung des Agenten.