nemo-curator

Name: nemo-curator
Author: davila7

autor: davila7

Przygotuj dane treningowe dla modeli LLM z przyspieszeniem GPU — deduplikacja 16× szybsza niż CPU.

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: davila7
Kategoria: Bezpieczeństwo
Wyświetlenia: 1

Repozytorium GitHub

O skillu

Narzędzie do kuracji danych wspierane przez NVIDIA, które przyspieszają przygotowanie zbiorów treningowych dla dużych modeli języka. Obsługuje tekst, obrazy, wideo i audio. Oferuje rozmytą deduplikację (16 razy szybciej), filtrowanie jakości (ponad 30 heurystyk), deduplikację semantyczną, usuwanie danych osobowych i detekcję treści NSFW. Skaluje się na klastrach GPU za pomocą RAPIDS. Idealne do czyszczenia danych ze stron internetowych, usuwania duplikatów z dużych korpusów i budowania wysokiej jakości zbiorów treningowych.

Jak używać

Zainstaluj nemo-curator za pomocą pip. Dla przetwarzania tekstu z CUDA 12 uruchom: uv pip install "nemo-curator[text_cuda12]". Jeśli pracujesz ze wszystkimi typami mediów (tekst, obrazy, wideo, audio), użyj: uv pip install "nemo-curator[all_cuda12]". Dla środowiska CPU-only (wolniejsze) zainstaluj: uv pip install "nemo-curator[cpu]".
Przygotuj swoje dane w formacie DataFrame — załaduj tekst lub inne media do struktury danych, którą będziesz przetwarzać. Narzędzie pracuje z DocumentDataset, więc upewnij się, że twoje dane są w odpowiednim formacie.
Zdefiniuj funkcję filtrowania jakości dostosowaną do twoich potrzeb. Możesz wykorzystać wbudowane heurystyki jakości lub napisać własną logikę oceny dokumentów.
Zastosuj ScoreFilter do swojego zestawu danych, aby odfiltrować dokumenty niskiej jakości, zawierające dane osobowe lub treści NSFW. Narzędzie automatycznie skaluje przetwarzanie na dostępnych GPU.
Uruchom pipeline deduplikacji — rozmyta deduplikacja usuwa duplikaty nawet jeśli tekst nieznacznie się różni. Dla dużych zbiorów danych ta operacja będzie 16 razy szybsza niż na CPU.
Eksportuj oczyszczone dane do formatu wymaganego przez twój model treningowy. Narzędzie zwraca gotowe dane bez duplikatów, z usuniętymi danymi wrażliwymi i przefiltrowaną zawartością.

Podobne skille

manim

autor: davila7

Twórz animacje matematyczne w Pythonie – framework do edukacyjnych filmów z równaniami i wykresami

Bezpieczeństwo

1588

llama-cpp

autor: zechenzhangAGI

Uruchamiaj modele językowe na CPU i Mac'ach bez karty NVIDIA

Bezpieczeństwo

11252

windows-ui-automation

autor: martinholovsky

Automatyzuj aplikacje Windows z bezpiecznym dostępem do UI Automation i Win32 API

Bezpieczeństwo

10115

brand-voice

autor: anthropics

Utrzymuj spójność marki we wszystkich materiałach marketingowych

Bezpieczeństwo

48158

ui-audit

autor: openclaw

Automatyczna ocena interfejsów według sprawdzonych zasad UX — szybko i świadomie.

Bezpieczeństwo

1223

google-analytics

autor: davila7

Analizuj dane Google Analytics i odkrywaj możliwości wzrostu Twojej strony

Bezpieczeństwo

1260