sentencepiece

Name: sentencepiece
Author: davila7

autor: davila7

Tokenizacja tekstu niezależna od języka – obsługuje wszystkie języki, w tym CJK, bez wstępnego przetwarzania.

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: davila7
Kategoria: Bezpieczeństwo

Repozytorium GitHub

O skillu

SentencePiece to nienadzorowany tokenizer pracujący bezpośrednio na surowym tekście Unicode, bez konieczności przygotowania danych dla konkretnego języka. Obsługuje algorytmy BPE i Unigram, działa z prędkością 50 tys. zdań na sekundę i zajmuje zaledwie 6 MB pamięci. Narzędzie gwarantuje deterministyczny słownik – zawsze ten sam wynik dla tych samych danych wejściowych. Używane przez modele T5, ALBERT, XLNet i mBART. Idealne do budowania systemów wielojęzycznych, pracy z językami azjatyckimi (chińskim, japońskim, koreańskim) oraz gdy potrzebujesz powtarzalnych wyników tokenizacji.

Jak używać

Zainstaluj SentencePiece za pomocą pip: uruchom polecenie pip install sentencepiece w terminalu. Upewnij się, że masz zainstalowany Python 3.6 lub nowszy.
Przygotuj plik tekstowy zawierający dane treningowe (np. data.txt). Tekst powinien być surowy – SentencePiece sam obsługuje Unicode i nie wymaga wstępnego tokenizowania ani czyszczenia.
Wytrenuj model tokenizera za pomocą API Pythona: zaimportuj moduł sentencepiece, a następnie użyj SentencePieceTrainer.train() z parametrami: input='data.txt' (ścieżka do pliku), model_prefix='m' (prefiks nazwy modelu), vocab_size=8000 (rozmiar słownika – dostosuj do swoich potrzeb) i model_type='bpe' (algorytm BPE dla większości przypadków).
Po treningu otrzymasz dwa pliki: m.model (wytrenowany model) i m.vocab (słownik). Przechowuj je w bezpiecznym miejscu – będą potrzebne do tokenizacji.
Załaduj model i tokenizuj nowy tekst: zaimportuj sentencepiece, otwórz model poleceniem spm.SentencePieceProcessor() i metodą load() wskaż ścieżkę do m.model, następnie użyj encode() do konwersji tekstu na tokeny lub decode() do odwrotnej operacji.
Jeśli pracujesz z wieloma językami lub językami CJK, nie zmieniaj ustawień domyślnych – SentencePiece automatycznie obsługuje wszystkie znaki Unicode bez dodatkowej konfiguracji.

Podobne skille

gmail-manager

autor: jeffvincent

Zarządzaj swoją skrzynką Gmail bezpośrednio z Claude — wysyłaj, czytaj i wyszukuj maile bez opuszczania czatu.

Bezpieczeństwo

17128

architect-review

autor: sickn33

Recenzje architektury oprogramowania przez doświadczonego architekta

Bezpieczeństwo

2773

feishu-docs

autor: openclaw

Zarządzaj dokumentami Feishu przez API — twórz, edytuj, usuwaj i udostępniaj zawartość programowo.

Bezpieczeństwo

1574

better-auth-best-practices

autor: novuhq

Integruj Better Auth – framework uwierzytelniania TypeScript z obsługą OAuth, magic linków i passkeys

Bezpieczeństwo

1148

qmd

autor: tobi

Przeszukuj swoje notatki i dokumenty markdown za pomocą hybrydowego silnika wyszukiwania z AI

Bezpieczeństwo

1951

zendesk

autor: vm0-ai

Zarządzaj biletami i użytkownikami Zendesk przez API – automatyzuj obsługę klienta

Bezpieczeństwo

11100