L
llm-provider-usage-statistics
Przewodnik liczenia tokenów i cache'owania dla OpenAI, Anthropic i Gemini
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Skill zawiera tabelaryczne zestawienie, jak różne dostawcy LLM raportują użycie tokenów i obsługują prefix caching. Znajdziesz tu krytyczne różnice między OpenAI, Anthropic i Gemini — szczególnie fakt, że Anthropic nie wlicza cached tokenów do input_tokens i wymaga ręcznego dodania. Zawiera też informacje o tokenach reasoning/thinking oraz minimalne wymagania do włączenia cache'owania na każdej platformie.
Jak używać
- Zainstaluj skill llm-provider-usage-statistics w swoim środowisku Letta, dodając repozytorium z gałęzi main do katalogu skills.
- Otwórz skill, gdy debugujesz liczenie tokenów w swoim agencie — szczególnie jeśli pracujesz z wieloma dostawcami jednocześnie.
- Sprawdź tabelę "Token Counting Semantics", aby zweryfikować, czy Twój dostawca wlicza cached tokeny do input_tokens czy nie. Dla Anthropic pamiętaj, że musisz ręcznie dodać cache_read_input_tokens i cache_creation_input_tokens do input_tokens.
- Jeśli optymalizujesz prefix caching, skonsultuj tabelę "Prefix Caching" — wszystkie trzy platformy wymagają minimum 1024 tokenów, ale OpenAI i Gemini włączają cache automatycznie, podczas gdy Anthropic wymaga jawnego ustawienia breakpoints cache_control.
- Dla modeli z reasoning (OpenAI o1/o3, Gemini 2.0 z thinking) sprawdź tabelę "Reasoning/Thinking Tokens", aby wiedzieć, w którym polu szukać tych tokenów w response'ie.
- W razie potrzeby przejdź do plików referencyjnych (openai.md, anthropic.md, gemini.md) w katalogu references, aby uzyskać szczegółowe instrukcje konfiguracji dla konkretnego dostawcy.