Przejdź do treści

Rate limiting (limitowanie zapytań)

Definicja

Rate limiting to ograniczanie liczby zapytań do systemu w danym czasie (np. 60/min), żeby chronić usługę przed przeciążeniem i nadużyciami.

Co to w zasadzie jest?

To „bramka”, która mówi: „OK, możesz pytać, ale nie 1000 razy na minutę”. W AI ma to znaczenie, bo:

modele i narzędzia kosztują,
ataki i błędy potrafią generować lawinę żądań,
pętle agentów mogą zrobić „samozapętlenie”.

Praktyczne zastosowania (konkretne scenariusze)

Scenariusz 1: Chatbot

Cel: limit per użytkownik, żeby uniknąć spamu.
Wejście: ruch użytkowników i limity systemu.
Kroki: policz żądania -> zastosuj limit -> zwróć komunikat.
Rezultat: stabilniejsze działanie usługi.
Zabezpieczenie: czytelne limity i obsługa wyjątków.

Scenariusz 2: API

Cel: limit per klucz, żeby kontrolować koszty i stabilność.
Wejście: ruch użytkowników i limity systemu.
Kroki: policz żądania -> zastosuj limit -> zwróć komunikat.
Rezultat: stabilniejsze działanie usługi.
Zabezpieczenie: czytelne limity i obsługa wyjątków.

Scenariusz 3: Agent

Cel: limit kroków narzędzi (max 20 wywołań).
Wejście: ruch użytkowników i limity systemu.
Kroki: policz żądania -> zastosuj limit -> zwróć komunikat.
Rezultat: stabilniejsze działanie usługi.
Zabezpieczenie: czytelne limity i obsługa wyjątków.

Ryzyka i jak je ograniczać

Ryzyko 1: Blokowanie „dobrych” użytkowników

Ryzyko: blokowanie „dobrych” użytkowników.
Jak ograniczać: różne limity dla różnych ról + jasny komunikat „spróbuj później”.

Ryzyko 2: Obchodzenie limitów

Ryzyko: obchodzenie limitów.
Jak ograniczać: identyfikacja po kluczu + IP + zachowaniu, analiza nadużyć.

Ryzyko 3: Brak widoczności, kiedy limit działa

Ryzyko: brak widoczności, kiedy limit działa.
Jak ograniczać: monitoring i alerty + logi.

Mapa powiązań

API → rate limiting jest częścią API.
SSO/IAM → limity często zależą od roli/użytkownika.
LLMOps / Monitoring jakości → obserwacja stabilności.
Agentic workflow → limity chronią przed pętlami.
Mini-przepływ: Żądanie → limit? → OK / odrzuć z informacją

Diagram

flowchart LR
    A[Żądanie]
    B[Sprawdź limit]
    C[Przepuść]
    D[Odrzuć lub poczekaj]
    E[Log]
    A --> B
    B --> C
    B --> D
    C --> E
    D --> E

Diagram pokazuje, że system ogranicza liczbę zapytań w czasie, aby chronić stabilność i koszty.