sparse-autoencoder-training

Name: sparse-autoencoder-training
Author: davila7

autor: davila7

Odkrywaj interpretowalne cechy w sieciach neuronowych za pomocą rzadkich autokoderów

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: davila7
Kategoria: Bezpieczeństwo
Wyświetlenia: 1

Repozytorium GitHub

O skillu

Umiejętność do trenowania i analizy rzadkich autokoderów (SAE) przy użyciu biblioteki SAELens. Rozkładaj aktywacje sieci neuronowych na interpretowalne, monosemantyczne cechy. Idealna do badania superpozyji, odkrywania ukrytych konceptów w modelach języka i analizy bezpieczeństwa. Oparty na badaniach Anthropic dotyczących monosemantyczności.

Jak używać

Zainstaluj wymagane zależności: SAELens (wersja 6.0.0+), TransformerLens (2.0.0+) i PyTorch (2.0.0+). Umiejętność wymaga tych bibliotek do działania.
Załaduj model języka, którego aktywacje chcesz analizować. SAELens pracuje z modelami obsługiwanymi przez TransformerLens, takimi jak popularne modele otwarte.
Przygotuj dane treningowe — wybierz teksty reprezentatywne dla zachowań, które chcesz zbadać. SAE będzie uczyć się rozkładać aktywacje na podstawie tych danych.
Skonfiguruj i wytrenuj rzadki autokoder, ustawiając parametry takie jak liczba cech, współczynnik rzadkości i współczynnik uczenia. Proces trenowania rozkłada gęste aktywacje na rzadkie, interpretowalne komponenty.
Analizuj odkryte cechy — zbadaj, które neurony aktywują się dla konkretnych konceptów, jak superpozyja wpływa na reprezentacje i jakie bezpieczeństwo-istotne wzorce model wyuczył.
Opcjonalnie wykonaj sterowanie cechami lub ablację — użyj odkrytych cech do modyfikacji zachowania modelu lub testowania przyczynowych wpływów na wyjście.

Podobne skille

backend-security-coder

autor: sickn33

Bezpieczny kod backendowy – walidacja, autentykacja i ochrona API

Bezpieczeństwo

1133

windows-ui-automation

autor: martinholovsky

Automatyzuj aplikacje Windows z bezpiecznym dostępem do UI Automation i Win32 API

Bezpieczeństwo

10115

solidity-security

autor: wshobson

Zabezpiecz swoje smart kontrakty przed atakami i lukami w kodzie Solidity

Bezpieczeństwo

10105

architect-review

autor: sickn33

Recenzje architektury oprogramowania przez doświadczonego architekta

Bezpieczeństwo

2773

youtube-watcher

autor: openclaw

Pobierz transkrypcje filmów YouTube i wyciągaj z nich informacje

Bezpieczeństwo

2231

typescript-review

autor: metabase

Automatyczna kontrola kodu TypeScript i JavaScript zgodnie ze standardami projektu

Bezpieczeństwo

17133