T
trulens-dataset-curation
Twórz zestawy ewaluacyjne z danymi referencyjnymi do testowania aplikacji LLM
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Umożliwia budowanie i organizowanie zbiorów danych do oceny wydajności aplikacji opartych na modelach językowych. Przygotuj zestawy zawierające zapytania, oczekiwane odpowiedzi i fragmenty kontekstu, aby porównywać rzeczywiste wyniki modelu z danymi referencyjnymi. Dzięki temu możesz śledzić jakość aplikacji na różnych wersjach i udostępniać wyniki ewaluacji zespołowi. Narzędzie integruje się z TruLens i wspiera pracę z danymi w formacie pandas.
Jak używać
- Zainstaluj wymagane biblioteki poleceniem pip install trulens pandas. 2. Zaimportuj TruSession z modułu trulens.core i zainicjuj sesję: session = TruSession(). 3. Przygotuj dane w formacie pandas DataFrame z kolumnami: query (wymagana — pytanie lub zapytanie), query_id (opcjonalna — unikalny identyfikator), expected_response (opcjonalna — oczekiwana odpowiedź) oraz expected_chunks (opcjonalna — oczekiwane fragmenty kontekstu pobrane z bazy). 4. Strukturyzuj dane tak, aby każdy wiersz reprezentował jedno pytanie testowe z odpowiadającymi mu danymi referencyjnymi. 5. Przekaż przygotowany DataFrame do TruLens w celu porównania rzeczywistych wyników aplikacji z wartościami referencyjnymi. 6. Wykorzystaj wyniki ewaluacji do śledzenia zmian wydajności między wersjami aplikacji i współpracy z zespołem nad poprawą jakości.