Definición

Prompt injection

La prompt injection es un ataque donde texto no confiable insertado en la entrada de un LLM (vía documento, web, respuesta de herramienta o prompt) anula las instrucciones originales del desarrollador y hace que el modelo realice una acción no autorizada.

La prompt injection tiene dos formas principales. Directa: un usuario escribe una instrucción que anula el system prompt. Indirecta: un atacante planta instrucciones en contenido que el modelo leerá luego — CV, página web, fila de BD — para que el modelo, al procesarlo, ejecute las instrucciones plantadas.

Por qué importa

  • La prompt injection está en el OWASP LLM Top 10 — riesgo LLM01.
  • Los agentes IA que leen email, navegan o consultan BD heredan el problema de frontera de confianza de cada fuente.
  • El artículo 53 del EU AI Act obliga a documentar resistencia a entradas adversarias.

Preguntas frecuentes

¿Se puede prevenir totalmente la prompt injection?

No al nivel del modelo solo. La defensa requiere controles en capas: filtrado pre-prompt, validación de salida y limitación de capacidades del agente.

Términos relacionados