Retrieval (wyszukiwanie informacji)

Definicja

Retrieval to etap „znajdź pasujące informacje”, zanim AI zacznie generować odpowiedź — np. przeszukanie plików, bazy wiedzy lub internetu (jeśli jest dozwolony).

Co to w zasadzie jest?

Model językowy świetnie układa zdania, ale nie ma gwarancji, że „pamięta” Twoje dokumenty. Retrieval to moment, kiedy system mówi: „najpierw poszukajmy w źródłach, potem piszmy”. To podstawa pracy opartej na faktach, bo:

zmniejsza halucynacje,
pozwala cytować i weryfikować,
ułatwia aktualizacje (zmieniasz dokument, a nie „uczenie” modelu).

Praktyczne zastosowania (konkretne scenariusze)

Scenariusz 1: „Znajdź w repo wszystkie definicje związane z bezpieczeństwem.”

Cel: „Znajdź w repo wszystkie definicje związane z bezpieczeństwem.”.
Wejście: pytanie użytkownika i zbiór dokumentów.
Kroki: wyszukaj fragmenty -> oceń trafność -> przekaż kontekst.
Rezultat: odpowiedź oparta na znalezionych materiałach.
Zabezpieczenie: kontrola źródeł i cytowanie.

Scenariusz 2: „Odszukaj fragment w PDF i streść go prostym językiem.”

Cel: „Odszukaj fragment w PDF i streść go prostym językiem.”.
Wejście: pytanie użytkownika i zbiór dokumentów.
Kroki: wyszukaj fragmenty -> oceń trafność -> przekaż kontekst.
Rezultat: odpowiedź oparta na znalezionych materiałach.
Zabezpieczenie: kontrola źródeł i cytowanie.

Scenariusz 3: „Pokaż porównanie dwóch pojęć na podstawie słownika.”

Cel: „Pokaż porównanie dwóch pojęć na podstawie słownika.”.
Wejście: pytanie użytkownika i zbiór dokumentów.
Kroki: wyszukaj fragmenty -> oceń trafność -> przekaż kontekst.
Rezultat: odpowiedź oparta na znalezionych materiałach.
Zabezpieczenie: kontrola źródeł i cytowanie.

Ryzyka i jak je ograniczać

Ryzyko 1: Złe wyniki wyszukiwania (AI dostaje nie to, co trzeba)

Ryzyko: złe wyniki wyszukiwania (AI dostaje nie to, co trzeba).
Jak ograniczać: dobre tagi, chunking, testy zapytań, reranking.

Ryzyko 2: Wrażliwe dane trafiają do kontekstu

Ryzyko: wrażliwe dane trafiają do kontekstu.
Jak ograniczać: filtry DLP, maskowanie PII, polityka dostępu.

Ryzyko 3: „stare” treści mieszają się z nowymi

Ryzyko: „stare” treści mieszają się z nowymi.
Jak ograniczać: wersjonowanie źródeł + daty aktualizacji + źródła priorytetowe.

Mapa powiązań

RAG → retrieval to pierwszy krok RAG.
Chunking → dzielenie treści poprawia wyszukiwanie.
Embedding / Vector database → techniczne zaplecze retrieval.
Fact-checking → retrieval dostarcza materiał do sprawdzenia.
Mini-przepływ: Pytanie → Retrieval → Kontekst → Odpowiedź

Diagram

flowchart LR
    A[Pytanie]
    B[Retrieval]
    C[Pasujące źródła]
    D[Kontekst]
    E[Odpowiedź]
    A --> B --> C --> D --> E

Diagram pokazuje etap wyszukiwania informacji przed generowaniem odpowiedzi przez model.

Dalsza lektura

NIST — podejście do wiarygodności i ryzyka AI (nist.gov)