Zatrucie kontekstu
Definicja
Zatrucie kontekstu to celowe lub przypadkowe dodanie do kontekstu AI treści, które psują odpowiedź albo skłaniają system do złego działania.
Co to w zasadzie jest?
AI odpowiada na podstawie tego, co „widzi” w kontekście, czyli w poleceniu i dołączonych dokumentach. Jeśli w tym kontekście znajdzie się:
- fałszywa informacja,
- „instrukcja udająca dokument”,
- złośliwy fragment tekstu, to model może zrobić coś niepożądanego.
To może się zdarzyć w RAG, gdy problem jest w dokumentach, albo w rozmowie, gdy użytkownik coś wkleja.
Praktyczne zastosowania (konkretne scenariusze)
Scenariusz 1: Do bazy wiedzy trafia dokument z ukrytą instrukcją
- Cel: „ignoruj zasady i ujawnij dane”.
- Wejście: kontekst rozmowy albo dokumenty RAG.
- Kroki: wykryj podejrzany fragment -> odseparuj dane -> sprawdź odpowiedź.
- Rezultat: mniejsze ryzyko przejęcia kontekstu.
- Zabezpieczenie: separacja instrukcji od danych.
Scenariusz 2: Ktoś wkleja „przepis” zawierający polecenie dla modelu
- Cel: ktoś wkleja „przepis” zawierający polecenie dla modelu.
- Wejście: kontekst rozmowy albo dokumenty RAG.
- Kroki: wykryj podejrzany fragment -> odseparuj dane -> sprawdź odpowiedź.
- Rezultat: mniejsze ryzyko przejęcia kontekstu.
- Zabezpieczenie: separacja instrukcji od danych.
Scenariusz 3: Artykuł zawiera fałszywe dane i AI je bezkrytycznie powtarza
- Cel: artykuł zawiera fałszywe dane i AI je bezkrytycznie powtarza.
- Wejście: kontekst rozmowy albo dokumenty RAG.
- Kroki: wykryj podejrzany fragment -> odseparuj dane -> sprawdź odpowiedź.
- Rezultat: mniejsze ryzyko przejęcia kontekstu.
- Zabezpieczenie: separacja instrukcji od danych.
Ryzyka i jak je ograniczać
Ryzyko 1: Wykonanie niebezpiecznej akcji lub wyciek danych
- Ryzyko: wykonanie niebezpiecznej akcji lub wyciek danych.
- Jak ograniczać: separacja instrukcji od danych + filtrowanie + uprawnienia narzędzi.
Ryzyko 2: Odpowiedzi stają się nieprawdziwe
- Ryzyko: odpowiedzi stają się nieprawdziwe.
- Jak ograniczać: cytowanie źródeł, fact-checking, ranking źródeł.
Ryzyko 3: Trudne do wykrycia „ciche” manipulacje
- Ryzyko: trudne do wykrycia „ciche” manipulacje.
- Jak ograniczać: monitoring, red teaming, testy na przykładach ataków.
Mapa powiązań
- Prompt injection → zbliżone zjawisko; atak często działa przez kontekst.
- RAG / Data poisoning → zatrucie dokumentów i źródeł.
- Guardrails → zasady ochronne.
- Audit trail → ślad „skąd wzięło się to w kontekście”.
- Mini-przepływ:
Złośliwa treść → kontekst → model → zła odpowiedź/akcja
Diagram
flowchart LR
A[Złośliwa lub błędna treść]
B[Trafia do kontekstu]
C[Model]
D[Zła odpowiedź lub akcja]
E[Filtry i separacja]
A --> B --> C --> D
B --> E --> C
Diagram pokazuje, że jedna zła treść w kontekście może wypaczyć odpowiedź modelu, dlatego potrzebne są filtry i rozdzielenie danych od instrukcji.