Przejdź do treści

Prompt guard (osłona promptu)

Definicja

Prompt guard to zestaw technik i reguł, które chronią prompt i działanie systemu przed manipulacją (np. przez prompt injection) oraz przed wyciekiem zasad.

Co to w zasadzie jest?

To „osłona” wokół tego, co mówisz AI i co AI może zrobić. Obejmuje:

  • separację instrukcji od danych,
  • blokowanie podejrzanych treści,
  • ograniczanie narzędzi,
  • weryfikację działań,
  • logowanie i alerty.

Prompt guard nie jest jednym trikiem — to warstwy ochrony.

Praktyczne zastosowania (konkretne scenariusze)

Scenariusz 1: W RAG

  • Cel: dokumenty są traktowane jako „dane”, nie „polecenia”.
  • Wejście: prompt użytkownika i reguły bezpieczeństwa.
  • Kroki: sprawdź wejście -> zablokuj ryzyko -> przekaż bezpieczny prompt.
  • Rezultat: mniejsze ryzyko nadużyć.
  • Zabezpieczenie: testy red-team i logowanie incydentów.

Scenariusz 2: W tool calling

  • Cel: tylko allowlist narzędzi, brak „dowolnej komendy”.
  • Wejście: prompt użytkownika i reguły bezpieczeństwa.
  • Kroki: sprawdź wejście -> zablokuj ryzyko -> przekaż bezpieczny prompt.
  • Rezultat: mniejsze ryzyko nadużyć.
  • Zabezpieczenie: testy red-team i logowanie incydentów.

Scenariusz 3: W publikacji

  • Cel: aI nie może sama opublikować bez akceptacji.
  • Wejście: prompt użytkownika i reguły bezpieczeństwa.
  • Kroki: sprawdź wejście -> zablokuj ryzyko -> przekaż bezpieczny prompt.
  • Rezultat: mniejsze ryzyko nadużyć.
  • Zabezpieczenie: testy red-team i logowanie incydentów.

Ryzyka i jak je ograniczać

Ryzyko 1: Złudne zabezpieczenie („mamy filtr i wystarczy”)

  • Ryzyko: złudne zabezpieczenie („mamy filtr i wystarczy”).
  • Jak ograniczać: testy red teaming, aktualizacje i monitoring.

Ryzyko 2: Zbyt agresywne filtry psują UX

  • Ryzyko: zbyt agresywne filtry psują UX.
  • Jak ograniczać: jasne komunikaty i dobre wyjątki.

Ryzyko 3: Brak spójności w całym systemie

  • Ryzyko: brak spójności w całym systemie.
  • Jak ograniczać: jedna polityka + wdrożenie w każdym miejscu.

Mapa powiązań

  • Guardrails → prompt guard to część guardrails.
  • Prompt injection → główny powód wdrożenia.
  • Prompt leakage → ochrona zasad systemu.
  • Tool calling → szczególnie istotne przy narzędziach.
  • Mini-przepływ: Wejście → filtr → kontekst → odpowiedź/akcja → log

Diagram

flowchart LR
    A[Wejście]
    B[Filtr]
    C[Kontekst]
    D[Odpowiedź lub akcja]
    E[Log]
    A --> B --> C --> D --> E

Diagram pokazuje warstwową ochronę promptu i kontekstu przed manipulacją i nadużyciem.