add-archon-model

Name: add-archon-model
Author: inclusionAI

autor: inclusionAI

Dodaj nową architekturę modelu do silnika Archon w kilka kroków

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: inclusionAI
Kategoria: Data Science
Wyświetlenia: 5

Repozytorium GitHub

O skillu

Umiejętność ułatwiająca integrację nowych architektur modeli z HuggingFace do silnika treningowego Archon. Przeprowadza Cię przez analizę konfiguracji modelu, ekstrakcję parametrów hiperparametrów, identyfikację wariantów uwagi i normalizacji, aż do rejestracji modelu w systemie. Idealna dla deweloperów rozszerzających Archon o obsługę nowych rodzin modeli takich jak Llama, Mistral czy DeepSeek.

Jak używać

Sprawdź, czy model docelowy jest dostępny na HuggingFace i posiada plik config.json z polem model_type, oraz upewnij się, że znasz jego identyfikator (np. meta-llama/Llama-3-8B).
Przeanalizuj architekturę modelu, pobierając jego config.json za pomocą AutoConfig.from_pretrained i identyfikując kluczowe parametry: model_type, hidden_size, num_layers oraz wszelkie pola specyficzne dla danego modelu (np. qk_norm, attention_bias, pola MoE).
Zbadaj plik modeling_*.py z repozytorium HuggingFace, aby zidentyfikować warianty: typ uwagi (Q/K norm, bias, sliding window), typ FFN (SwiGLU, GeGLU, standardowy MLP), obsługę MoE, wariant RoPE (standard, YaRN, NTK-aware scaling), typ normalizacji (RMSNorm czy LayerNorm, pre-norm czy post-norm) oraz weight tying.
Wyodrębnij nazwy kluczy słownika stanu (state dict) z pliku modeling_*.py, aby zrozumieć strukturę parametrów modelu i mapowanie warstw.
Utwórz nową specyfikację modelu (ModelSpec) w Archon, rejestrując wszystkie wyodrębnione parametry hiperparametrów i warianty architektoniczne zgodnie ze schematem Archon.
Przetestuj integrację, ładując model z HuggingFace i weryfikując, że wszystkie parametry są prawidłowo mapowane i model może być trenowany w silniku Archon.

Podobne skille

market-research-reports

autor: davila7

Raporty badań rynku na poziomie firm konsultingowych w kilka minut

Data Science

16115

prompt-optimizer

autor: solatis

Doskonał prompty dla agentów Claude – wzorce oparte na badaniach naukowych

Data Science

15109

excalidraw

autor: ryanquinn3

Deleguj przetwarzanie diagramów Excalidraw agentom, aby zaoszczędzić kontekst

Data Science

124204

docx

autor: anthropics

Twórz, edytuj i analizuj dokumenty Word z pełną kontrolą zmian i komentarzy

Data Science

39142

quant-analyst

autor: zenobi-us

Zaawansowana analiza ilościowa dla modeli finansowych, handlu algorytmicznego i zarządzania ryzykiem

Data Science

67217

market-analysis

autor: xbklairith

Analiza rynków z wskaźnikami technicznymi, wsparciem i oporem, trendami multi-timeframe

Data Science

29144