Przejdź do treści

Ground truth (prawda referencyjna)

Definicja

Ground truth to „prawidłowa odpowiedź” lub zestaw danych referencyjnych, do których porównujesz wyniki AI.

Co to w zasadzie jest?

Jeśli chcesz ocenić, czy AI działa dobrze, musisz mieć punkt odniesienia:

  • prawidłowe odpowiedzi,
  • poprawne etykiety,
  • sprawdzone źródła.

Bez ground truth łatwo wpaść w pułapkę: „wydaje się OK”, ale w praktyce jest źle.

Praktyczne zastosowania (konkretne scenariusze)

Scenariusz 1: Zestaw 100 pytań o pojęciownik z przygotowanymi dobrymi odpowiedziami

  • Cel: zestaw 100 pytań o pojęciownik z przygotowanymi dobrymi odpowiedziami.
  • Wejście: zestaw referencyjnych odpowiedzi albo etykiet.
  • Kroki: porównaj wynik -> policz różnice -> popraw model lub prompt.
  • Rezultat: ocena jakości oparta na wzorcu.
  • Zabezpieczenie: aktualizacja i przegląd danych referencyjnych.

Scenariusz 2: Lista „poprawnych” fragmentów dokumentów do retrieval

  • Cel: lista „poprawnych” fragmentów dokumentów do retrieval.
  • Wejście: zestaw referencyjnych odpowiedzi albo etykiet.
  • Kroki: porównaj wynik -> policz różnice -> popraw model lub prompt.
  • Rezultat: ocena jakości oparta na wzorcu.
  • Zabezpieczenie: aktualizacja i przegląd danych referencyjnych.

Scenariusz 3: Testy bezpieczeństwa

  • Cel: oczekiwana reakcja „odmowa” na niebezpieczne prośby.
  • Wejście: zestaw referencyjnych odpowiedzi albo etykiet.
  • Kroki: porównaj wynik -> policz różnice -> popraw model lub prompt.
  • Rezultat: ocena jakości oparta na wzorcu.
  • Zabezpieczenie: aktualizacja i przegląd danych referencyjnych.

Ryzyka i jak je ograniczać

Ryzyko 1: Ground truth jest nieaktualne

  • Ryzyko: ground truth jest nieaktualne.
  • Jak ograniczać: aktualizacje, wersjonowanie, daty.

Ryzyko 2: Ground truth jest stronnicze

  • Ryzyko: ground truth jest stronnicze.
  • Jak ograniczać: różne osoby, różne przypadki, analiza bias.

Ryzyko 3: Porównujesz nie to, co trzeba (zła metryka)

  • Ryzyko: porównujesz nie to, co trzeba (zła metryka).
  • Jak ograniczać: jasne kryteria jakości i metryki.

Mapa powiązań

  • Ewaluacja → bez ground truth nie ma dobrej ewaluacji.
  • Benchmark → benchmarky opierają się na danych referencyjnych.
  • Fact-checking → ground truth jako baza do weryfikacji.
  • Drift → porównanie „w czasie” do prawdy referencyjnej.
  • Mini-przepływ: Ground truth → testy → metryki → poprawki

Diagram

flowchart LR
    A[Poprawna odpowiedź]
    B[Wynik systemu]
    C[Porównanie]
    D[Metryka]
    E[Wniosek]
    A --> C
    B --> C --> D --> E

Diagram pokazuje, że ground truth jest punktem odniesienia do oceny jakości systemu.

Dalsza lektura