nemo-curator
Przygotuj dane treningowe dla modeli LLM z przyspieszeniem GPU — deduplikacja 16× szybsza niż CPU.
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Narzędzie do kuracji danych wspierane przez NVIDIA, które przyspieszają przygotowanie zbiorów treningowych dla dużych modeli języka. Obsługuje tekst, obrazy, wideo i audio. Oferuje rozmytą deduplikację (16 razy szybciej), filtrowanie jakości (ponad 30 heurystyk), deduplikację semantyczną, usuwanie danych osobowych i detekcję treści NSFW. Skaluje się na klastrach GPU za pomocą RAPIDS. Idealne do czyszczenia danych ze stron internetowych, usuwania duplikatów z dużych korpusów i budowania wysokiej jakości zbiorów treningowych.
Jak używać
Zainstaluj nemo-curator za pomocą pip. Dla przetwarzania tekstu z CUDA 12 uruchom: uv pip install "nemo-curator[text_cuda12]". Jeśli pracujesz ze wszystkimi typami mediów (tekst, obrazy, wideo, audio), użyj: uv pip install "nemo-curator[all_cuda12]". Dla środowiska CPU-only (wolniejsze) zainstaluj: uv pip install "nemo-curator[cpu]".
Przygotuj swoje dane w formacie DataFrame — załaduj tekst lub inne media do struktury danych, którą będziesz przetwarzać. Narzędzie pracuje z DocumentDataset, więc upewnij się, że twoje dane są w odpowiednim formacie.
Zdefiniuj funkcję filtrowania jakości dostosowaną do twoich potrzeb. Możesz wykorzystać wbudowane heurystyki jakości lub napisać własną logikę oceny dokumentów.
Zastosuj ScoreFilter do swojego zestawu danych, aby odfiltrować dokumenty niskiej jakości, zawierające dane osobowe lub treści NSFW. Narzędzie automatycznie skaluje przetwarzanie na dostępnych GPU.
Uruchom pipeline deduplikacji — rozmyta deduplikacja usuwa duplikaty nawet jeśli tekst nieznacznie się różni. Dla dużych zbiorów danych ta operacja będzie 16 razy szybsza niż na CPU.
Eksportuj oczyszczone dane do formatu wymaganego przez twój model treningowy. Narzędzie zwraca gotowe dane bez duplikatów, z usuniętymi danymi wrażliwymi i przefiltrowaną zawartością.