docetl
Buduj potoki przetwarzania danych napędzane LLM-ami – od surowych dokumentów do czystych wyników
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
DocETL to narzędzie do tworzenia automatycznych potoków przetwarzania danych opartych na modelach językowych. Pozwala ci zbierać dane z różnych źródeł, ekstrahować strukturalne informacje z tekstu nieuporzadkowanego, walidować wyniki i wizualizować wnioski. Pracujesz iteracyjnie: piszesz skrypt, uruchamiasz go, sprawdzasz rezultaty, poprawiasz – bez konieczności ręcznego przetwarzania dokumentów. Idealne do analizy dużych zbiorów tekstów, ekstrakcji danych z formularzy, raportów lub artykułów, oraz automatyzacji zadań ETL na tekście.
Jak używać
Zainstaluj umiejętność DocETL w swoim środowisku Claude, wskazując repozytorium https://github.com/ucbepic/docetl/tree/main/.claude/skills/docetl.
Rozpocznij od fazy zbierania danych: napisz skrypt, który pobierze lub załaduje dokumenty z Twojego źródła (pliki, API, baza danych). Uruchom go natychmiast i sprawdź wyniki – zobacz liczbę dokumentów, strukturę pól, przykładowe rekordy i rozkład długości tekstu. Jeśli dane wyglądają źle, popraw skrypt i spróbuj ponownie.
Przejdź do fazy rozwoju potoku: przeczytaj kilka przykładowych dokumentów, aby zrozumieć ich format. Napisz plik YAML definiujący potok przetwarzania, dodając parametr
sample: 10-20do testowania na małym zbiorze. Uruchom potok testowy i sprawdź jakość ekstrakcji – czy wyodrębnione dane są poprawne, czy schemat działa.Iteruj nad promptami i schematem na podstawie wyników testowych. Gdy wyniki będą zadowalające, usuń parametr
samplei uruchom potok na pełnym zbiorze danych.W fazie wizualizacji napisz skrypt generujący wykresy i tabele na podstawie rzeczywistej struktury wyjściowej. Uruchom skrypt i pokaż raport użytkownikowi. Jeśli wizualizacja wymaga poprawy, dostosuj wykresy i uruchom ponownie.
Nigdy nie pisz wszystkich skryptów naraz i nie uruchamiaj ich razem – pracuj fazami, walidując każdą przed przejściem do następnej. To podejście pozwala szybko wykryć problemy i iterować efektywnie.