sparse-autoencoder-training
Odkrywaj interpretowalne cechy w sieciach neuronowych za pomocą rzadkich autokoderów
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Umiejętność do trenowania i analizy rzadkich autokoderów (SAE) przy użyciu biblioteki SAELens. Rozkładaj aktywacje sieci neuronowych na interpretowalne, monosemantyczne cechy. Idealna do badania superpozyji, odkrywania ukrytych konceptów w modelach języka i analizy bezpieczeństwa. Oparty na badaniach Anthropic dotyczących monosemantyczności.
Jak używać
Zainstaluj wymagane zależności: SAELens (wersja 6.0.0+), TransformerLens (2.0.0+) i PyTorch (2.0.0+). Umiejętność wymaga tych bibliotek do działania.
Załaduj model języka, którego aktywacje chcesz analizować. SAELens pracuje z modelami obsługiwanymi przez TransformerLens, takimi jak popularne modele otwarte.
Przygotuj dane treningowe — wybierz teksty reprezentatywne dla zachowań, które chcesz zbadać. SAE będzie uczyć się rozkładać aktywacje na podstawie tych danych.
Skonfiguruj i wytrenuj rzadki autokoder, ustawiając parametry takie jak liczba cech, współczynnik rzadkości i współczynnik uczenia. Proces trenowania rozkłada gęste aktywacje na rzadkie, interpretowalne komponenty.
Analizuj odkryte cechy — zbadaj, które neurony aktywują się dla konkretnych konceptów, jak superpozyja wpływa na reprezentacje i jakie bezpieczeństwo-istotne wzorce model wyuczył.
Opcjonalnie wykonaj sterowanie cechami lub ablację — użyj odkrytych cech do modyfikacji zachowania modelu lub testowania przyczynowych wpływów na wyjście.
Podobne skille
backend-security-coder
autor: sickn33
windows-ui-automation
autor: martinholovsky
solidity-security
autor: wshobson
architect-review
autor: sickn33
youtube-watcher
autor: openclaw
typescript-review
autor: metabase