A
add-cuda-kernel
Krok po kroku: dodaj własne jądra CUDA do FlashInfer i optymalizuj obliczenia na GPU
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Poradnik do dodawania nowych jąder CUDA do biblioteki FlashInfer. Nauczysz się, jak zaimplementować operację skalowania tensorów (mnożenie każdego elementu przez skalar) wspierającą wiele typów danych: FP16, BF16 i FP32. Tutorial pokazuje pełny przepływ pracy: definicję jądra CUDA w nagłówkach, launcher do uruchomienia na GPU oraz integrację z frameworkiem. Idealne dla inżynierów pracujących nad optymalizacją GPU i chcących rozszerzyć możliwości FlashInfer o własne operacje.
Jak używać
- Sklonuj repozytorium FlashInfer z gałęzi zawierającej skill: git clone https://github.com/flashinfer-ai/flashinfer.git i przejdź do katalogu projektu.
- Utwórz nowy plik nagłówka w katalogu include/flashinfer/ (np. scale.cuh) i zdefiniuj jądro CUDA jako szablon funkcji global przyjmujący wskaźniki do tensora wejściowego, tensora wyjściowego, współczynnika skalowania i liczby elementów.
- Dodaj funkcję launcher (np. ScaleLauncher) która oblicza liczbę bloków i wątków na podstawie liczby elementów, a następnie uruchamia jądro CUDA z odpowiednimi parametrami siatki i strumienia.
- Upewnij się, że implementacja używa szablonów typów (template
) aby wspierać FP16, BF16 i FP32 bez duplikacji kodu. - Zintegruj nową operację z resztą biblioteki FlashInfer, dodając odpowiednie deklaracje w plikach nagłówkowych i testując jądro z różnymi typami danych i rozmiarami tensorów.
- Skompiluj projekt i uruchom testy aby upewnić się, że jądro działa poprawnie na docelowym GPU.
Podobne skille
P
pdf-to-markdown
autor: aliceisjustplaying
Backend
355664
Y
youtube-transcribe-skill
autor: feiskyer
Backend
24178
S
stripe-integration
autor: wshobson
Backend
40147
L
literature-review
autor: K-Dense-AI
Backend
238507
S
supabase-operations
autor: elevanaltd
Backend
27109
S
sql-optimization-patterns
autor: wshobson
Backend
40163