Toolverse
Wszystkie skille

add-archon-model

autor: inclusionAI

Dodaj nową architekturę modelu do silnika Archon w kilka kroków

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Kategoria
Data Science
Wyświetlenia
5

O skillu

Umiejętność ułatwiająca integrację nowych architektur modeli z HuggingFace do silnika treningowego Archon. Przeprowadza Cię przez analizę konfiguracji modelu, ekstrakcję parametrów hiperparametrów, identyfikację wariantów uwagi i normalizacji, aż do rejestracji modelu w systemie. Idealna dla deweloperów rozszerzających Archon o obsługę nowych rodzin modeli takich jak Llama, Mistral czy DeepSeek.

Jak używać

  1. Sprawdź, czy model docelowy jest dostępny na HuggingFace i posiada plik config.json z polem model_type, oraz upewnij się, że znasz jego identyfikator (np. meta-llama/Llama-3-8B).

  2. Przeanalizuj architekturę modelu, pobierając jego config.json za pomocą AutoConfig.from_pretrained i identyfikując kluczowe parametry: model_type, hidden_size, num_layers oraz wszelkie pola specyficzne dla danego modelu (np. qk_norm, attention_bias, pola MoE).

  3. Zbadaj plik modeling_*.py z repozytorium HuggingFace, aby zidentyfikować warianty: typ uwagi (Q/K norm, bias, sliding window), typ FFN (SwiGLU, GeGLU, standardowy MLP), obsługę MoE, wariant RoPE (standard, YaRN, NTK-aware scaling), typ normalizacji (RMSNorm czy LayerNorm, pre-norm czy post-norm) oraz weight tying.

  4. Wyodrębnij nazwy kluczy słownika stanu (state dict) z pliku modeling_*.py, aby zrozumieć strukturę parametrów modelu i mapowanie warstw.

  5. Utwórz nową specyfikację modelu (ModelSpec) w Archon, rejestrując wszystkie wyodrębnione parametry hiperparametrów i warianty architektoniczne zgodnie ze schematem Archon.

  6. Przetestuj integrację, ładując model z HuggingFace i weryfikując, że wszystkie parametry są prawidłowo mapowane i model może być trenowany w silniku Archon.

Podobne skille