optimizing-attention-flash

Name: optimizing-attention-flash
Author: davila7

autor: davila7

Przyspeszy transformery do 4x i zmniejszy zużycie pamięci GPU o 95% dzięki Flash Attention

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: davila7
Kategoria: Bezpieczeństwo
Wyświetlenia: 13

Repozytorium GitHub

O skillu

Zoptymalizuj wydajność modeli transformerowych za pomocą Flash Attention. Narzędzie zapewnia 2–4-krotne przyspieszenie i 10–20-krotne zmniejszenie zużycia pamięci, szczególnie przydatne przy pracy z długimi sekwencjami (powyżej 512 tokenów) i problemach z pamięcią GPU. Obsługuje natywny PyTorch SDPA, bibliotekę flash-attn, precyzję FP8 na H100 oraz attention z przesuwającym się oknem. Idealne do trenowania i wnioskowania na dużych modelach.

Jak używać

Sprawdź wersję PyTorch — powinna być co najmniej 2.2.0. Uruchom python -c "import torch; print(torch.__version__)" w terminalu. Jeśli masz starszą wersję, zaktualizuj PyTorch poleceniem pip install --upgrade torch.
Wybierz metodę integracji. Dla najprostszego podejścia użyj natywnego PyTorch SDPA (dostępny w wersji 2.2+), który automatycznie włącza Flash Attention jeśli jest dostępna. Alternatywnie zainstaluj bibliotekę flash-attn poleceniem pip install flash-attn --no-build-isolation dla większej kontroli i dodatkowych opcji.
Zaimplementuj attention w swoim modelu. W przypadku PyTorch SDPA zaimportuj torch.nn.functional i użyj funkcji scaled_dot_product_attention(q, k, v) zamiast ręcznego obliczania attention. Dla flash-attn zaimportuj flash_attn_func i przekaż tensory w formacie [batch, seqlen, nheads, headdim].
Przygotuj tensory wejściowe — query, key i value powinny być na urządzeniu CUDA i w formacie float16 lub bfloat16. Upewnij się, że sekwencja ma więcej niż 512 tokenów, aby w pełni wykorzystać optymalizacje Flash Attention.
Przetestuj wydajność za pomocą profilowania. Porównaj czas wykonania i zużycie pamięci przed i po włączeniu Flash Attention, aby potwierdzić przyspieszenie i oszczędności pamięci.
Zweryfikuj dokładność — uruchom testy aby upewnić się, że wyniki modelu pozostają zgodne z wersją bazową bez Flash Attention.

Podobne skille

youtube-watcher

autor: openclaw

Pobierz transkrypcje filmów YouTube i wyciągaj z nich informacje

Bezpieczeństwo

2231

zendesk

autor: vm0-ai

Zarządzaj biletami i użytkownikami Zendesk przez API – automatyzuj obsługę klienta

Bezpieczeństwo

11100

ui-audit

autor: openclaw

Automatyczna ocena interfejsów według sprawdzonych zasad UX — szybko i świadomie.

Bezpieczeństwo

1223

gmail-manager

autor: jeffvincent

Zarządzaj swoją skrzynką Gmail bezpośrednio z Claude — wysyłaj, czytaj i wyszukuj maile bez opuszczania czatu.

Bezpieczeństwo

17128

payload

autor: payloadcms

Asystent Claude do projektów Payload CMS — debugowanie, konfiguracja i optymalizacja API

Bezpieczeństwo

50171

windows-ui-automation

autor: martinholovsky

Automatyzuj aplikacje Windows z bezpiecznym dostępem do UI Automation i Win32 API

Bezpieczeństwo

10115