Toolverse
Wszystkie skille

sparse-autoencoder-training

autor: davila7

Odkrywaj interpretowalne cechy w sieciach neuronowych za pomocą rzadkich autokoderów

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor
davila7
Wyświetlenia
1

O skillu

Umiejętność do trenowania i analizy rzadkich autokoderów (SAE) przy użyciu biblioteki SAELens. Rozkładaj aktywacje sieci neuronowych na interpretowalne, monosemantyczne cechy. Idealna do badania superpozyji, odkrywania ukrytych konceptów w modelach języka i analizy bezpieczeństwa. Oparty na badaniach Anthropic dotyczących monosemantyczności.

Jak używać

  1. Zainstaluj wymagane zależności: SAELens (wersja 6.0.0+), TransformerLens (2.0.0+) i PyTorch (2.0.0+). Umiejętność wymaga tych bibliotek do działania.

  2. Załaduj model języka, którego aktywacje chcesz analizować. SAELens pracuje z modelami obsługiwanymi przez TransformerLens, takimi jak popularne modele otwarte.

  3. Przygotuj dane treningowe — wybierz teksty reprezentatywne dla zachowań, które chcesz zbadać. SAE będzie uczyć się rozkładać aktywacje na podstawie tych danych.

  4. Skonfiguruj i wytrenuj rzadki autokoder, ustawiając parametry takie jak liczba cech, współczynnik rzadkości i współczynnik uczenia. Proces trenowania rozkłada gęste aktywacje na rzadkie, interpretowalne komponenty.

  5. Analizuj odkryte cechy — zbadaj, które neurony aktywują się dla konkretnych konceptów, jak superpozyja wpływa na reprezentacje i jakie bezpieczeństwo-istotne wzorce model wyuczył.

  6. Opcjonalnie wykonaj sterowanie cechami lub ablację — użyj odkrytych cech do modyfikacji zachowania modelu lub testowania przyczynowych wpływów na wyjście.

Podobne skille