Dzielenie na fragmenty
Definicja
Chunking to dzielenie dokumentów na mniejsze fragmenty. Dzięki temu łatwiej je wyszukać i wstawić do kontekstu modelu.
Co to w zasadzie jest?
- Model nie „połknie” całej książki naraz — ma limit kontekstu.
- Dlatego dokument dzieli się na sensowne części, na przykład akapity albo sekcje.
- Dobre fragmenty zwykle dają lepsze odpowiedzi w RAG.
Praktyczne zastosowania (konkretne scenariusze)
Scenariusz 1: RAG do procedur
- Cel: RAG do procedur.
- Wejście: PDF procedury.
- Kroki: podział na sekcje → embedding → baza.
- Rezultat: trafne cytaty.
- Zabezpieczenie: zachowanie numerów rozdziałów.
Scenariusz 2: Baza odpowiedzi do strony WWW i FAQ
- Cel: baza odpowiedzi do strony WWW i FAQ.
- Wejście: regulaminy i FAQ.
- Kroki: podział na fragmenty -> linkowanie -> wyszukiwarka.
- Rezultat: szybkie dopasowanie.
- Zabezpieczenie: kontrola wersji.
Scenariusz 3: Analiza uchwał
- Cel: analiza uchwał.
- Wejście: długie dokumenty.
- Kroki: dziel po paragrafach.
- Rezultat: cytowanie konkretów.
- Zabezpieczenie: spójne ID fragmentów.
Typowe błędy i pułapki
- Zbyt krótkie fragmenty -> brak kontekstu.
- Zbyt długie fragmenty -> szum i gorsze wyniki.
- Dzielenie w losowych miejscach (bez nagłówków).
Ryzyka i jak je ograniczać
Ryzyko 1: Utrata kontekstu
- Ryzyko: Utrata kontekstu: fragment bez definicji.
- Jak ograniczać: overlap (nakładanie) + sekcje.
Ryzyko 2: Błędne cytaty
- Ryzyko: Błędne cytaty: brak źródła fragmentu.
- Jak ograniczać: metadane: tytuł, rozdział, URL.
Ryzyko 3: Bałagan w aktualizacjach
- Ryzyko: Bałagan w aktualizacjach: fragmenty się „rozjeżdżają”.
- Jak ograniczać: stałe identyfikatory.
Checklista “zanim użyjesz”
- Czy chunk ma tytuł/sekcję?
- Czy jest overlap (np. 10–20%)?
- Czy fragment ma link do źródła?
- Czy rozmiar chunków jest testowany na pytaniach?
- Czy aktualizacja dokumentu przebudowuje indeks?
Diagram
flowchart LR
A[Dokument]
B[Podział na fragmenty]
C[Metadane]
D[Wyszukiwanie]
E[Cytat lub odpowiedź]
A --> B --> C --> D --> E
Diagram pokazuje, że długi dokument trzeba podzielić na sensowne fragmenty, aby łatwiej go wyszukać i zacytować.
Dalsza lektura
- NIST AI RMF (procesy i kontrola jakości).
- OWASP LLM Top 10 (ryzyka dla RAG).
- Materiały o wyszukiwaniu semantycznym.
Miejsce w mapie
- Chunking → wspiera: RAG
- Chunking → poprawia: Baza wektorowa
- Chunking → wpływa na: Halucynacje