add-archon-model
Dodaj nową architekturę modelu do silnika Archon w kilka kroków
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Umiejętność ułatwiająca integrację nowych architektur modeli z HuggingFace do silnika treningowego Archon. Przeprowadza Cię przez analizę konfiguracji modelu, ekstrakcję parametrów hiperparametrów, identyfikację wariantów uwagi i normalizacji, aż do rejestracji modelu w systemie. Idealna dla deweloperów rozszerzających Archon o obsługę nowych rodzin modeli takich jak Llama, Mistral czy DeepSeek.
Jak używać
Sprawdź, czy model docelowy jest dostępny na HuggingFace i posiada plik config.json z polem model_type, oraz upewnij się, że znasz jego identyfikator (np. meta-llama/Llama-3-8B).
Przeanalizuj architekturę modelu, pobierając jego config.json za pomocą AutoConfig.from_pretrained i identyfikując kluczowe parametry: model_type, hidden_size, num_layers oraz wszelkie pola specyficzne dla danego modelu (np. qk_norm, attention_bias, pola MoE).
Zbadaj plik modeling_*.py z repozytorium HuggingFace, aby zidentyfikować warianty: typ uwagi (Q/K norm, bias, sliding window), typ FFN (SwiGLU, GeGLU, standardowy MLP), obsługę MoE, wariant RoPE (standard, YaRN, NTK-aware scaling), typ normalizacji (RMSNorm czy LayerNorm, pre-norm czy post-norm) oraz weight tying.
Wyodrębnij nazwy kluczy słownika stanu (state dict) z pliku modeling_*.py, aby zrozumieć strukturę parametrów modelu i mapowanie warstw.
Utwórz nową specyfikację modelu (ModelSpec) w Archon, rejestrując wszystkie wyodrębnione parametry hiperparametrów i warianty architektoniczne zgodnie ze schematem Archon.
Przetestuj integrację, ładując model z HuggingFace i weryfikując, że wszystkie parametry są prawidłowo mapowane i model może być trenowany w silniku Archon.