Przejdź do treści

Retrieval (wyszukiwanie informacji)

Definicja

Retrieval to etap „znajdź pasujące informacje”, zanim AI zacznie generować odpowiedź — np. przeszukanie plików, bazy wiedzy lub internetu (jeśli jest dozwolony).

Co to w zasadzie jest?

Model językowy świetnie układa zdania, ale nie ma gwarancji, że „pamięta” Twoje dokumenty. Retrieval to moment, kiedy system mówi: „najpierw poszukajmy w źródłach, potem piszmy”. To podstawa pracy opartej na faktach, bo:

  • zmniejsza halucynacje,
  • pozwala cytować i weryfikować,
  • ułatwia aktualizacje (zmieniasz dokument, a nie „uczenie” modelu).

Praktyczne zastosowania (konkretne scenariusze)

Scenariusz 1: „Znajdź w repo wszystkie definicje związane z bezpieczeństwem.”

  • Cel: „Znajdź w repo wszystkie definicje związane z bezpieczeństwem.”.
  • Wejście: pytanie użytkownika i zbiór dokumentów.
  • Kroki: wyszukaj fragmenty -> oceń trafność -> przekaż kontekst.
  • Rezultat: odpowiedź oparta na znalezionych materiałach.
  • Zabezpieczenie: kontrola źródeł i cytowanie.

Scenariusz 2: „Odszukaj fragment w PDF i streść go prostym językiem.”

  • Cel: „Odszukaj fragment w PDF i streść go prostym językiem.”.
  • Wejście: pytanie użytkownika i zbiór dokumentów.
  • Kroki: wyszukaj fragmenty -> oceń trafność -> przekaż kontekst.
  • Rezultat: odpowiedź oparta na znalezionych materiałach.
  • Zabezpieczenie: kontrola źródeł i cytowanie.

Scenariusz 3: „Pokaż porównanie dwóch pojęć na podstawie słownika.”

  • Cel: „Pokaż porównanie dwóch pojęć na podstawie słownika.”.
  • Wejście: pytanie użytkownika i zbiór dokumentów.
  • Kroki: wyszukaj fragmenty -> oceń trafność -> przekaż kontekst.
  • Rezultat: odpowiedź oparta na znalezionych materiałach.
  • Zabezpieczenie: kontrola źródeł i cytowanie.

Ryzyka i jak je ograniczać

Ryzyko 1: Złe wyniki wyszukiwania (AI dostaje nie to, co trzeba)

  • Ryzyko: złe wyniki wyszukiwania (AI dostaje nie to, co trzeba).
  • Jak ograniczać: dobre tagi, chunking, testy zapytań, reranking.

Ryzyko 2: Wrażliwe dane trafiają do kontekstu

  • Ryzyko: wrażliwe dane trafiają do kontekstu.
  • Jak ograniczać: filtry DLP, maskowanie PII, polityka dostępu.

Ryzyko 3: „stare” treści mieszają się z nowymi

  • Ryzyko: „stare” treści mieszają się z nowymi.
  • Jak ograniczać: wersjonowanie źródeł + daty aktualizacji + źródła priorytetowe.

Mapa powiązań

  • RAG → retrieval to pierwszy krok RAG.
  • Chunking → dzielenie treści poprawia wyszukiwanie.
  • Embedding / Vector database → techniczne zaplecze retrieval.
  • Fact-checking → retrieval dostarcza materiał do sprawdzenia.
  • Mini-przepływ: Pytanie → Retrieval → Kontekst → Odpowiedź

Diagram

flowchart LR
    A[Pytanie]
    B[Retrieval]
    C[Pasujące źródła]
    D[Kontekst]
    E[Odpowiedź]
    A --> B --> C --> D --> E

Diagram pokazuje etap wyszukiwania informacji przed generowaniem odpowiedzi przez model.

Dalsza lektura