Prompt guard (osłona promptu)
Definicja
Prompt guard to zestaw technik i reguł, które chronią prompt i działanie systemu przed manipulacją (np. przez prompt injection) oraz przed wyciekiem zasad.
Co to w zasadzie jest?
To „osłona” wokół tego, co mówisz AI i co AI może zrobić. Obejmuje:
- separację instrukcji od danych,
- blokowanie podejrzanych treści,
- ograniczanie narzędzi,
- weryfikację działań,
- logowanie i alerty.
Prompt guard nie jest jednym trikiem — to warstwy ochrony.
Praktyczne zastosowania (konkretne scenariusze)
Scenariusz 1: W RAG
- Cel: dokumenty są traktowane jako „dane”, nie „polecenia”.
- Wejście: prompt użytkownika i reguły bezpieczeństwa.
- Kroki: sprawdź wejście -> zablokuj ryzyko -> przekaż bezpieczny prompt.
- Rezultat: mniejsze ryzyko nadużyć.
- Zabezpieczenie: testy red-team i logowanie incydentów.
Scenariusz 2: W tool calling
- Cel: tylko allowlist narzędzi, brak „dowolnej komendy”.
- Wejście: prompt użytkownika i reguły bezpieczeństwa.
- Kroki: sprawdź wejście -> zablokuj ryzyko -> przekaż bezpieczny prompt.
- Rezultat: mniejsze ryzyko nadużyć.
- Zabezpieczenie: testy red-team i logowanie incydentów.
Scenariusz 3: W publikacji
- Cel: aI nie może sama opublikować bez akceptacji.
- Wejście: prompt użytkownika i reguły bezpieczeństwa.
- Kroki: sprawdź wejście -> zablokuj ryzyko -> przekaż bezpieczny prompt.
- Rezultat: mniejsze ryzyko nadużyć.
- Zabezpieczenie: testy red-team i logowanie incydentów.
Ryzyka i jak je ograniczać
Ryzyko 1: Złudne zabezpieczenie („mamy filtr i wystarczy”)
- Ryzyko: złudne zabezpieczenie („mamy filtr i wystarczy”).
- Jak ograniczać: testy red teaming, aktualizacje i monitoring.
Ryzyko 2: Zbyt agresywne filtry psują UX
- Ryzyko: zbyt agresywne filtry psują UX.
- Jak ograniczać: jasne komunikaty i dobre wyjątki.
Ryzyko 3: Brak spójności w całym systemie
- Ryzyko: brak spójności w całym systemie.
- Jak ograniczać: jedna polityka + wdrożenie w każdym miejscu.
Mapa powiązań
- Guardrails → prompt guard to część guardrails.
- Prompt injection → główny powód wdrożenia.
- Prompt leakage → ochrona zasad systemu.
- Tool calling → szczególnie istotne przy narzędziach.
- Mini-przepływ:
Wejście → filtr → kontekst → odpowiedź/akcja → log
Diagram
flowchart LR
A[Wejście]
B[Filtr]
C[Kontekst]
D[Odpowiedź lub akcja]
E[Log]
A --> B --> C --> D --> E
Diagram pokazuje warstwową ochronę promptu i kontekstu przed manipulacją i nadużyciem.