Observability (obserwowalność)
Definicja
Observability to zdolność „zrozumienia, co się dzieje w systemie” na podstawie logów, metryk i śladów (traces) — tak, aby szybko wykrywać błędy i poprawiać działanie.
Co to w zasadzie jest?
Monitoring to „czy działa”. Observability to „dlaczego działa / dlaczego nie działa”. W systemach AI jest to ważne, bo odpowiedź zależy od wielu elementów:
- promptów,
- retrieval i źródeł,
- narzędzi,
- ustawień modelu,
- wersji treści.
Bez obserwowalności trudno odtworzyć: „czemu AI powiedziała X?”
Praktyczne zastosowania (konkretne scenariusze)
Scenariusz 1: Widzisz, że jakość spadła — sprawdzasz, czy zmieniły się źródła RAG
- Cel: widzisz, że jakość spadła — sprawdzasz, czy zmieniły się źródła RAG.
- Wejście: logi, metryki, ślady i identyfikator żądania.
- Kroki: zbierz sygnały -> porównaj wersje -> znajdź przyczynę.
- Rezultat: szybsza diagnoza problemu.
- Zabezpieczenie: maskowanie danych i kontrola dostępu do logów.
Scenariusz 2: Ktoś zgłasza błąd — odtwarzasz dokładny prompt i kontekst
- Cel: ktoś zgłasza błąd — odtwarzasz dokładny prompt i kontekst.
- Wejście: logi, metryki, ślady i identyfikator żądania.
- Kroki: zbierz sygnały -> porównaj wersje -> znajdź przyczynę.
- Rezultat: szybsza diagnoza problemu.
- Zabezpieczenie: maskowanie danych i kontrola dostępu do logów.
Scenariusz 3: Analizujesz koszty — widzisz które zadania zjadają najwięcej tokenów
- Cel: analizujesz koszty — widzisz które zadania zjadają najwięcej tokenów.
- Wejście: logi, metryki, ślady i identyfikator żądania.
- Kroki: zbierz sygnały -> porównaj wersje -> znajdź przyczynę.
- Rezultat: szybsza diagnoza problemu.
- Zabezpieczenie: maskowanie danych i kontrola dostępu do logów.
Ryzyka i jak je ograniczać
Ryzyko 1: Logi zawierają dane wrażliwe
- Ryzyko: logi zawierają dane wrażliwe.
- Jak ograniczać: maskowanie PII, minimalizacja, kontrola dostępu do logów.
Ryzyko 2: Za dużo danych i chaos
- Ryzyko: za dużo danych i chaos.
- Jak ograniczać: standard formatów, tagi, dashboardy, retencja.
Ryzyko 3: Brak spójności (nie da się porównać wersji)
- Ryzyko: brak spójności (nie da się porównać wersji).
- Jak ograniczać: wersjonowanie promptów i źródeł + identyfikatory żądań.
Mapa powiązań
- LLMOps → observability to fundament operacji.
- Audit trail → kto/co/kiedy.
- Monitoring jakości → metryki jakości.
- DLP / PII → bezpieczeństwo logów.
- Mini-przepływ:
Metryki + logi + ślady → diagnoza → poprawka
Diagram
flowchart LR
A[Metryki]
B[Logi]
C[Ślady]
D[Diagnoza]
E[Poprawka]
A --> D
B --> D
C --> D --> E
Diagram pokazuje, że obserwowalność łączy metryki, logi i ślady, aby zrozumieć działanie systemu.