moe-training

Name: moe-training
Author: davila7

autor: davila7

Trenuj oszczędne modele AI z wieloma ekspertami — 5× taniej niż gęste sieci neuronowe

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: davila7
Kategoria: Bezpieczeństwo
Wyświetlenia: 23

Repozytorium GitHub

O skillu

Skill do trenowania modeli Mixture of Experts (MoE) za pomocą DeepSpeed lub HuggingFace. Idealne, gdy masz ograniczone zasoby obliczeniowe, ale chcesz trenować duże modele — osiągasz 5-krotną redukcję kosztów w porównaniu z tradycyjnymi sieciami. Implementuj architektur takie jak Mixtral 8x7B czy DeepSeek-V3, gdzie tylko część parametrów aktywuje się dla każdego wejścia. Obejmuje mechanizmy routingu, równoważenie obciążenia ekspertów, paralelizm i optymalizację wnioskowania.

Jak używać

Zainstaluj DeepSpeed z obsługą MoE: pip install deepspeed==0.6.0. Opcjonalnie sklonuj Megatron-DeepSpeed z repozytorium Microsoft dla trenowania na dużą skalę, lub użyj HuggingFace Transformers z accelerate: pip install transformers accelerate.
Zdefiniuj warstwę MoE w swoim modelu, tworząc klasę MoELayer z parametrami: rozmiar ukryty (hidden_size), liczba ekspertów (num_experts, domyślnie 8) i top_k (ile ekspertów aktywować na raz, zwykle 2). Każdy ekspert to niezależna sieć neuronowa specjalizująca się w różnych wzorcach.
Skonfiguruj router, który decyduje, które eksperty aktywować dla każdego tokena wejściowego. Router uczy się, które eksperty są najlepsze dla danego wejścia, co zmniejsza liczbę aktywnych parametrów.
Dodaj mechanizm równoważenia obciążenia, aby zapewnić, że wszystkie eksperci są równomiernie wykorzystywani podczas trenowania — unika to sytuacji, gdzie jeden ekspert otrzymuje zbyt wiele przykładów.
Trenuj model używając DeepSpeed lub HuggingFace Trainer, podając konfigurację MoE. Monitoruj, ile parametrów jest aktywnych w każdym kroku — w Mixtral 8x7B aktywnych jest zaledwie 13 miliardów z 47 miliardów parametrów.
Po treningu zoptymalizuj wnioskowanie, włączając sparse activation — model będzie szybszy i mniej wymagający zasobów niż gęste sieci tej samej wielkości.

Podobne skille

backend-security-coder

autor: sickn33

Bezpieczny kod backendowy – walidacja, autentykacja i ochrona API

Bezpieczeństwo

1133

openapi-spec-generation

autor: wshobson

Generuj specyfikacje OpenAPI 3.1 z kodu i projektów API — dokumentacja zawsze zsynchronizowana

Bezpieczeństwo

18109

architect-review

autor: sickn33

Recenzje architektury oprogramowania przez doświadczonego architekta

Bezpieczeństwo

2773

security-compliance

autor: davila7

Bezpieczeństwo i zgodność od podstaw — architektura obrony warstwowej, compliance i zarządzanie incydentami

Bezpieczeństwo

1172

reviewing-code

autor: CaptainCrouton89

Systematyczna ocena zmian w kodzie pod kątem bezpieczeństwa, poprawności i zgodności ze specyfikacją

Bezpieczeństwo

1493

better-auth-best-practices

autor: novuhq

Integruj Better Auth – framework uwierzytelniania TypeScript z obsługą OAuth, magic linków i passkeys

Bezpieczeństwo

1148