Toolverse
Wszystkie skille

docetl

autor: ucbepic

Buduj potoki przetwarzania danych napędzane LLM-ami – od surowych dokumentów do czystych wyników

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor
ucbepic
Kategoria
DevOps
Wyświetlenia
8

O skillu

DocETL to narzędzie do tworzenia automatycznych potoków przetwarzania danych opartych na modelach językowych. Pozwala ci zbierać dane z różnych źródeł, ekstrahować strukturalne informacje z tekstu nieuporzadkowanego, walidować wyniki i wizualizować wnioski. Pracujesz iteracyjnie: piszesz skrypt, uruchamiasz go, sprawdzasz rezultaty, poprawiasz – bez konieczności ręcznego przetwarzania dokumentów. Idealne do analizy dużych zbiorów tekstów, ekstrakcji danych z formularzy, raportów lub artykułów, oraz automatyzacji zadań ETL na tekście.

Jak używać

  1. Zainstaluj umiejętność DocETL w swoim środowisku Claude, wskazując repozytorium https://github.com/ucbepic/docetl/tree/main/.claude/skills/docetl.

  2. Rozpocznij od fazy zbierania danych: napisz skrypt, który pobierze lub załaduje dokumenty z Twojego źródła (pliki, API, baza danych). Uruchom go natychmiast i sprawdź wyniki – zobacz liczbę dokumentów, strukturę pól, przykładowe rekordy i rozkład długości tekstu. Jeśli dane wyglądają źle, popraw skrypt i spróbuj ponownie.

  3. Przejdź do fazy rozwoju potoku: przeczytaj kilka przykładowych dokumentów, aby zrozumieć ich format. Napisz plik YAML definiujący potok przetwarzania, dodając parametr sample: 10-20 do testowania na małym zbiorze. Uruchom potok testowy i sprawdź jakość ekstrakcji – czy wyodrębnione dane są poprawne, czy schemat działa.

  4. Iteruj nad promptami i schematem na podstawie wyników testowych. Gdy wyniki będą zadowalające, usuń parametr sample i uruchom potok na pełnym zbiorze danych.

  5. W fazie wizualizacji napisz skrypt generujący wykresy i tabele na podstawie rzeczywistej struktury wyjściowej. Uruchom skrypt i pokaż raport użytkownikowi. Jeśli wizualizacja wymaga poprawy, dostosuj wykresy i uruchom ponownie.

  6. Nigdy nie pisz wszystkich skryptów naraz i nie uruchamiaj ich razem – pracuj fazami, walidując każdą przed przejściem do następnej. To podejście pozwala szybko wykryć problemy i iterować efektywnie.

Podobne skille