moe-training
Trenuj oszczędne modele AI z wieloma ekspertami — 5× taniej niż gęste sieci neuronowe
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Skill do trenowania modeli Mixture of Experts (MoE) za pomocą DeepSpeed lub HuggingFace. Idealne, gdy masz ograniczone zasoby obliczeniowe, ale chcesz trenować duże modele — osiągasz 5-krotną redukcję kosztów w porównaniu z tradycyjnymi sieciami. Implementuj architektur takie jak Mixtral 8x7B czy DeepSeek-V3, gdzie tylko część parametrów aktywuje się dla każdego wejścia. Obejmuje mechanizmy routingu, równoważenie obciążenia ekspertów, paralelizm i optymalizację wnioskowania.
Jak używać
Zainstaluj DeepSpeed z obsługą MoE: pip install deepspeed==0.6.0. Opcjonalnie sklonuj Megatron-DeepSpeed z repozytorium Microsoft dla trenowania na dużą skalę, lub użyj HuggingFace Transformers z accelerate: pip install transformers accelerate.
Zdefiniuj warstwę MoE w swoim modelu, tworząc klasę MoELayer z parametrami: rozmiar ukryty (hidden_size), liczba ekspertów (num_experts, domyślnie 8) i top_k (ile ekspertów aktywować na raz, zwykle 2). Każdy ekspert to niezależna sieć neuronowa specjalizująca się w różnych wzorcach.
Skonfiguruj router, który decyduje, które eksperty aktywować dla każdego tokena wejściowego. Router uczy się, które eksperty są najlepsze dla danego wejścia, co zmniejsza liczbę aktywnych parametrów.
Dodaj mechanizm równoważenia obciążenia, aby zapewnić, że wszystkie eksperci są równomiernie wykorzystywani podczas trenowania — unika to sytuacji, gdzie jeden ekspert otrzymuje zbyt wiele przykładów.
Trenuj model używając DeepSpeed lub HuggingFace Trainer, podając konfigurację MoE. Monitoruj, ile parametrów jest aktywnych w każdym kroku — w Mixtral 8x7B aktywnych jest zaledwie 13 miliardów z 47 miliardów parametrów.
Po treningu zoptymalizuj wnioskowanie, włączając sparse activation — model będzie szybszy i mniej wymagający zasobów niż gęste sieci tej samej wielkości.
Podobne skille
backend-security-coder
autor: sickn33
openapi-spec-generation
autor: wshobson
architect-review
autor: sickn33
security-compliance
autor: davila7
reviewing-code
autor: CaptainCrouton89
better-auth-best-practices
autor: novuhq