Hybrid search (wyszukiwanie hybrydowe)
Definicja
Hybrid search to łączenie dwóch podejść do wyszukiwania: klasycznego (słowa kluczowe) i semantycznego (embeddingi), aby lepiej trafiać w intencję pytania.
Co to w zasadzie jest?
Słowa kluczowe świetnie działają, gdy ktoś zna nazwę („RAG”, „DLP”). Semantyka działa, gdy ktoś opisuje problem („jak uniknąć wycieków danych do AI”). Hybryda bierze najlepsze z obu światów:
- dopasowanie po frazach,
- dopasowanie po znaczeniu.
Praktyczne zastosowania (konkretne scenariusze)
Scenariusz 1: Pytanie
- Cel: „jak chronić dane osobowe w AI” → semantyka trafia w PII/DLP.
- Wejście: zapytanie użytkownika i indeks tekstowy/wektorowy.
- Kroki: wyszukaj tekstowo -> wyszukaj semantycznie -> połącz wyniki.
- Rezultat: większa trafność wyszukiwania.
- Zabezpieczenie: reranking i testy jakości.
Scenariusz 2: Pytanie
- Cel: „prompt leakage” → keyword search łapie termin.
- Wejście: zapytanie użytkownika i indeks tekstowy/wektorowy.
- Kroki: wyszukaj tekstowo -> wyszukaj semantycznie -> połącz wyniki.
- Rezultat: większa trafność wyszukiwania.
- Zabezpieczenie: reranking i testy jakości.
Scenariusz 3: Pytanie
- Cel: „baza wektorowa” → hybryda znajduje i „vector database”, i „embedding”.
- Wejście: zapytanie użytkownika i indeks tekstowy/wektorowy.
- Kroki: wyszukaj tekstowo -> wyszukaj semantycznie -> połącz wyniki.
- Rezultat: większa trafność wyszukiwania.
- Zabezpieczenie: reranking i testy jakości.
Ryzyka i jak je ograniczać
Ryzyko 1: Skomplikowanie i trudność strojenia
- Ryzyko: skomplikowanie i trudność strojenia.
- Jak ograniczać: testy na realnych pytaniach + proste heurystyki.
Ryzyko 2: Złe wyniki w długich dokumentach
- Ryzyko: złe wyniki w długich dokumentach.
- Jak ograniczać: chunking + reranking.
Ryzyko 3: Koszty
- Ryzyko: koszty.
- Jak ograniczać: cache, top-k, profilowanie.
Mapa powiązań
- Embedding / Vector database → filar semantyki.
- Chunking → poprawia trafność.
- Reranking → drugi filtr jakości.
- RAG → hybryda często jest częścią RAG.
- Mini-przepływ:
Keyword + semantyka → wspólne wyniki → rerank
Diagram
flowchart LR
A[Pytanie]
B[Wyszukiwanie słów]
C[Wyszukiwanie znaczenia]
D[Połączenie wyników]
E[Lepszy kontekst]
A --> B --> D
A --> C --> D --> E
Diagram pokazuje, że wyszukiwanie hybrydowe łączy dopasowanie po słowach i po sensie.