Toolverse
Wróć na blog

OpenAI Privacy Filter po polsku: jak chronić dane klientów z lokalnym AI bez chmury

openaiochrona danychrodoanonimizacjalokalne ai

OpenAI Privacy Filter po polsku: jak chronić dane klientów z lokalnym AI bez chmury

Wyobraź sobie narzędzie, które w kilka sekund usuwa z wiadomości imię klienta, numer PESEL, NIP i adres — zanim prześlesz tekst do jakiegokolwiek modelu językowego. Brzmi jak marzenie działu compliance? OpenAI po cichu wydało właśnie coś takiego: otwarty, bezpłatny model do anonimizacji danych, który działa w całości na Twoim komputerze. Dla polskich firm, które muszą pogodzić pracę z AI i wymogi RODO, to narzędzie zasługuje na poważną uwagę.

Czym jest OpenAI Privacy Filter i dlaczego to ważne

Pod koniec kwietnia 2026 roku OpenAI opublikowało model o nazwie Privacy Filter — bez wielkich fanfar i kampanii marketingowej. To model tzw. open-weight, co oznacza, że jego wagi są publicznie dostępne do pobrania i uruchomienia lokalnie. Licencja Apache 2.0 pozwala na zastosowania komercyjne.

Model działa zupełnie inaczej niż klasyczne LLM-y. Zamiast generować tekst, zachowuje się jak inteligentny marker — skanuje treść i oznacza fragmenty należące do ośmiu kategorii: osoby, adresy, adresy e-mail, numery telefonów, linki, daty, numery kont bankowych oraz tajne dane (klucze API, hasła). Wszystko poza tymi kategoriami model po prostu ignoruje.

Parametry techniczne są skromne w dobrym sensie: 1,5 miliarda parametrów łącznie, z czego aktywnych jest zaledwie 50 milionów, a kontekst sięga 128 tys. tokenów. Cały model zajmuje około 3 GB RAM, więc bez problemu uruchomi się na przeciętnym laptopie biznesowym. Według oficjalnych benchmarków skuteczność wykrywania danych wrażliwych przekracza 96% — model celowo bywa nadgorliwy, bo lepiej zamaskować za dużo niż przepuścić cokolwiek krytycznego.

Problem z językiem polskim i jak go obejść

Tu zaczynają się schody dla polskich użytkowników. Dokumentacja OpenAI wprost ostrzega, że skuteczność modelu poza językiem angielskim jest niższa. W praktyce Privacy Filter nie zna specyfiki polskich identyfikatorów — nie rozumie struktury PESEL-u, nie wie czym jest NIP w kontekście podatkowym ani jak wygląda polski IBAN (zaczynający się od „PL" i mający 26 cyfr). Numer NIP może zostać błędnie sklasyfikowany jako numer konta, a odmienione przez przypadki imię — zupełnie przeoczone.

Rozwiązaniem jest nakładka łącząca model OpenAI z dodatkową warstwą opartą na wyrażeniach regularnych, dopasowaną do polskich wzorców danych. PESEL to 11 cyfr z sumą kontrolną, NIP to 10 cyfr, polski IBAN ma z góry określony format — wszystko to można opisać precyzyjnymi regexami. Takie rozwiązanie działa dwutorowo: model AI wyłapuje dane z kontekstu (imiona, adresy, nazwy), a regex poluje na konkretne formaty liczbowe charakterystyczne dla polskiego systemu.

Trzy sposoby uruchomienia — od przeglądarki po serwer lokalny

OpenAI udostępniło trzy ścieżki do korzystania z Privacy Filter. Najprostszą jest demo na platformie Hugging Face — wchodzisz przez przeglądarkę, wklejasz tekst i w kilka sekund widzisz zamaskowaną wersję. Zero instalacji, działa nawet na zablokowanym służbowym sprzęcie. Uwaga: dane przechodzą przez serwery zewnętrzne, więc to opcja wyłącznie do testowania — nigdy do pracy z prawdziwymi danymi klientów.

Druga opcja to instalacja lokalna przez terminal, opisana szczegółowo w oficjalnym repozytorium na GitHubie (blisko 2000 gwiazdek, licencja Apache 2.0). Komenda opf "tekst" przetwarza wklejony ciąg znaków, a opf -f plik.txt > plik_anon.txt anonimizuje cały plik i zapisuje wynik pod nową nazwą. Model ładuje się przy pierwszym uruchomieniu przez 20–30 sekund, kolejne wywołania są niemal natychmiastowe.

Ważna techniczna uwaga: Privacy Filter to model typu encoder, a nie generatywny LLM. Nie uruchomisz go przez Ollama ani LM Studio — to zupełnie inna architektura i inny sposób użycia.

Trzecia opcja to opisana wyżej nakładka z polskim wsparciem, działająca jako lokalny serwer na porcie 8000 z interfejsem webowym. Umożliwia przeciąganie plików, wizualne oznaczanie wykrytych danych, selektywne odmaskowanie wybranych fragmentów oraz eksport gotowego tekstu. Całość działa offline — możesz wyłączyć Wi-Fi i narzędzie nadal przetwarza dokumenty.

RODO, compliance i realna użyteczność w polskich firmach

Narzędzie do automatycznej anonimizacji może być cennym elementem procesu ochrony danych, ale nie zastępuje procedur RODO. Przetwarzanie danych osobowych klientów w chmurze — nawet przez ChatGPT czy inne komercyjne LLM-y — wymaga podpisania umowy powierzenia przetwarzania danych z dostawcą. Privacy Filter działający lokalnie eliminuje ten problem, bo dane nigdy nie opuszczają Twojego sprzętu.

W praktyce narzędzie sprawdza się jako bramka przed wklejeniem notatki ze spotkania, e-maila od klienta czy dokumentu do zewnętrznego modelu AI. Anonimizujesz tekst lokalnie, a dopiero „czysty" wersję wysyłasz do chmury. To podejście nie rozwiązuje wszystkich kwestii prawnych, ale znacząco redukuje ryzyko wycieku danych. Po szczegółową interpretację tego, co wolno, a czego nie — warto skonsultować się z prawnikiem specjalizującym się w ochronie danych.

Model radzi sobie z osobami, e-mailami, telefonami i danymi liczbowymi całkiem dobrze. Słabszą stroną pozostają nazwy firm — OpenAI nie przewidziało dla nich osobnej kategorii — a polska fleksja potrafi sprawić kłopot przy odmienach imion przez przypadki.

FAQ — najczęstsze pytania o OpenAI Privacy Filter

Czy Privacy Filter wysyła moje dane do OpenAI?
Nie — o ile instalujesz model lokalnie. Model open-weight działa całkowicie na Twoim sprzęcie, bez połączenia z serwerami OpenAI. Jedynym wyjątkiem jest demo na Hugging Face Spaces, gdzie dane przechodzą przez zewnętrzne serwery — tej opcji nie należy używać do prawdziwych danych.

Czy model działa na Windows?
Model jest dostępny przez oficjalne repozytorium GitHub i teoretycznie można go uruchomić na różnych systemach. Nakładka z interfejsem webową i polskim wsparciem, opisana w tym artykule, w obecnej wersji działa natywnie na macOS, jednak kod jest otwarty i można go dostosować do własnych potrzeb.

Czy Privacy Filter zastępuje anonimizację wymaganą przez RODO?
Nie w pełni. Narzędzie skutecznie redukuje ryzyko wycieku danych wrażliwych do zewnętrznych usług AI, ale samo RODO nakłada dodatkowe wymogi organizacyjne i prawne. Jeśli przetwarzasz dane klientów komercyjnie, niezbędna jest konsultacja z prawnikiem i odpowiednia dokumentacja procesów.

Ile kosztuje korzystanie z OpenAI Privacy Filter?
Model jest bezpłatny i dostępny na licencji Apache 2.0, która pozwala na użycie komercyjne. Jedynym kosztem jest sprzęt — model potrzebuje około 3 GB RAM i działa na przeciętnym laptopie bez dedykowanej karty graficznej.

Jak dokładny jest model przy polskich danych?
Sam model OpenAI osiąga skuteczność powyżej 96% dla języka angielskiego, ale przy polskich tekstach może przeoczyć specyficzne identyfikatory jak PESEL czy NIP lub błędnie je sklasyfikować. Rozwiązaniem jest połączenie modelu z warstwą regex dopasowaną do polskich formatów danych — takie połączenie znacząco poprawia wykrywalność.