sentencepiece
Tokenizacja tekstu niezależna od języka – obsługuje wszystkie języki, w tym CJK, bez wstępnego przetwarzania.
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
SentencePiece to nienadzorowany tokenizer pracujący bezpośrednio na surowym tekście Unicode, bez konieczności przygotowania danych dla konkretnego języka. Obsługuje algorytmy BPE i Unigram, działa z prędkością 50 tys. zdań na sekundę i zajmuje zaledwie 6 MB pamięci. Narzędzie gwarantuje deterministyczny słownik – zawsze ten sam wynik dla tych samych danych wejściowych. Używane przez modele T5, ALBERT, XLNet i mBART. Idealne do budowania systemów wielojęzycznych, pracy z językami azjatyckimi (chińskim, japońskim, koreańskim) oraz gdy potrzebujesz powtarzalnych wyników tokenizacji.
Jak używać
Zainstaluj SentencePiece za pomocą pip: uruchom polecenie
pip install sentencepiecew terminalu. Upewnij się, że masz zainstalowany Python 3.6 lub nowszy.Przygotuj plik tekstowy zawierający dane treningowe (np.
data.txt). Tekst powinien być surowy – SentencePiece sam obsługuje Unicode i nie wymaga wstępnego tokenizowania ani czyszczenia.Wytrenuj model tokenizera za pomocą API Pythona: zaimportuj moduł
sentencepiece, a następnie użyjSentencePieceTrainer.train()z parametrami:input='data.txt'(ścieżka do pliku),model_prefix='m'(prefiks nazwy modelu),vocab_size=8000(rozmiar słownika – dostosuj do swoich potrzeb) imodel_type='bpe'(algorytm BPE dla większości przypadków).Po treningu otrzymasz dwa pliki:
m.model(wytrenowany model) im.vocab(słownik). Przechowuj je w bezpiecznym miejscu – będą potrzebne do tokenizacji.Załaduj model i tokenizuj nowy tekst: zaimportuj
sentencepiece, otwórz model poleceniemspm.SentencePieceProcessor()i metodąload()wskaż ścieżkę dom.model, następnie użyjencode()do konwersji tekstu na tokeny lubdecode()do odwrotnej operacji.Jeśli pracujesz z wieloma językami lub językami CJK, nie zmieniaj ustawień domyślnych – SentencePiece automatycznie obsługuje wszystkie znaki Unicode bez dodatkowej konfiguracji.