Przejdź do treści

Prompt leakage (wyciek instrukcji)

Definicja

Prompt leakage to sytuacja, gdy model ujawnia instrukcje systemowe, zasady działania lub treści, które powinny pozostać ukryte.

Co to w zasadzie jest?

  • To jak wyciągnięcie „notatek wewnętrznych” z systemu.
  • Może ujawnić polityki, klucze lub fragmenty danych z kontekstu.
  • Często jest skutkiem sprytnych pytań lub prompt injection.

Praktyczne zastosowania (konkretne scenariusze)

Scenariusz 1: Asystent procedur

  • Cel: asystent procedur: próby „pokaż instrukcje administratora”.
  • Wejście: prompt użytkownika i instrukcje systemowe.
  • Kroki: wykryj próbę ujawnienia -> odmów -> zaloguj incydent.
  • Rezultat: mniejsze ryzyko wycieku instrukcji.
  • Zabezpieczenie: separacja instrukcji i testy red-team.

Scenariusz 2: Chat na stronie

  • Cel: chat na stronie: próby wyciągnięcia listy dokumentów lub promptów.
  • Wejście: prompt użytkownika i instrukcje systemowe.
  • Kroki: wykryj próbę ujawnienia -> odmów -> zaloguj incydent.
  • Rezultat: mniejsze ryzyko wycieku instrukcji.
  • Zabezpieczenie: separacja instrukcji i testy red-team.

Typowe błędy i pułapki

  • Trzymanie w promptach tajnych informacji.
  • Brak testów bezpieczeństwa (red teaming).

Ryzyka i jak je ograniczać

Ryzyko 1: Wyciek reguł i danych

  • Ryzyko: Wyciek reguł i danych.
  • Jak ograniczać: nie umieszczaj sekretów w promptach.

Ryzyko 2: Ułatwienie ataku

  • Ryzyko: Ułatwienie ataku.
  • Jak ograniczać: guardrails + red teaming.

Ryzyko 3: Reputacja

  • Ryzyko: Reputacja.
  • Jak ograniczać: monitoring i szybkie reagowanie.

Checklista “zanim użyjesz”

  • Czy w promptach nie ma sekretów?
  • Czy model ma zakaz ujawniania instrukcji?
  • Czy testowano ataki?
  • Czy logujesz podejrzane próby?
  • Czy masz procedurę incydentu?

Diagram

flowchart LR
    A[Atak pytaniem]
    B[Próba wycieku]
    C[Blokada]
    D[Odmowa]
    E[Log incydentu]
    A --> B --> C --> D --> E

Diagram pokazuje próbę wydobycia ukrytych instrukcji i reakcję systemu w postaci blokady i logu.

Dalsza lektura

Miejsce w mapie

Powiązane hasła