Prompt guard (osłona promptu)

Definicja

Prompt guard to zestaw technik i reguł, które chronią prompt i działanie systemu przed manipulacją (np. przez prompt injection) oraz przed wyciekiem zasad.

Co to w zasadzie jest?

To „osłona” wokół tego, co mówisz AI i co AI może zrobić. Obejmuje:

separację instrukcji od danych,
blokowanie podejrzanych treści,
ograniczanie narzędzi,
weryfikację działań,
logowanie i alerty.

Prompt guard nie jest jednym trikiem — to warstwy ochrony.

Praktyczne zastosowania (konkretne scenariusze)

Scenariusz 1: W RAG

Cel: dokumenty są traktowane jako „dane”, nie „polecenia”.
Wejście: prompt użytkownika i reguły bezpieczeństwa.
Kroki: sprawdź wejście -> zablokuj ryzyko -> przekaż bezpieczny prompt.
Rezultat: mniejsze ryzyko nadużyć.
Zabezpieczenie: testy red-team i logowanie incydentów.

Scenariusz 2: W tool calling

Cel: tylko allowlist narzędzi, brak „dowolnej komendy”.
Wejście: prompt użytkownika i reguły bezpieczeństwa.
Kroki: sprawdź wejście -> zablokuj ryzyko -> przekaż bezpieczny prompt.
Rezultat: mniejsze ryzyko nadużyć.
Zabezpieczenie: testy red-team i logowanie incydentów.

Scenariusz 3: W publikacji

Cel: aI nie może sama opublikować bez akceptacji.
Wejście: prompt użytkownika i reguły bezpieczeństwa.
Kroki: sprawdź wejście -> zablokuj ryzyko -> przekaż bezpieczny prompt.
Rezultat: mniejsze ryzyko nadużyć.
Zabezpieczenie: testy red-team i logowanie incydentów.

Ryzyka i jak je ograniczać

Ryzyko 1: Złudne zabezpieczenie („mamy filtr i wystarczy”)

Ryzyko: złudne zabezpieczenie („mamy filtr i wystarczy”).
Jak ograniczać: testy red teaming, aktualizacje i monitoring.

Ryzyko 2: Zbyt agresywne filtry psują UX

Ryzyko: zbyt agresywne filtry psują UX.
Jak ograniczać: jasne komunikaty i dobre wyjątki.

Ryzyko 3: Brak spójności w całym systemie

Ryzyko: brak spójności w całym systemie.
Jak ograniczać: jedna polityka + wdrożenie w każdym miejscu.

Mapa powiązań

Guardrails → prompt guard to część guardrails.
Prompt injection → główny powód wdrożenia.
Prompt leakage → ochrona zasad systemu.
Tool calling → szczególnie istotne przy narzędziach.
Mini-przepływ: Wejście → filtr → kontekst → odpowiedź/akcja → log

Diagram

flowchart LR
    A[Wejście]
    B[Filtr]
    C[Kontekst]
    D[Odpowiedź lub akcja]
    E[Log]
    A --> B --> C --> D --> E

Diagram pokazuje warstwową ochronę promptu i kontekstu przed manipulacją i nadużyciem.