add-cuda-kernel

Name: add-cuda-kernel
Author: flashinfer-ai

autor: flashinfer-ai

Krok po kroku: dodaj własne jądra CUDA do FlashInfer i optymalizuj obliczenia na GPU

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: flashinfer-ai
Kategoria: Backend

Repozytorium GitHub

O skillu

Poradnik do dodawania nowych jąder CUDA do biblioteki FlashInfer. Nauczysz się, jak zaimplementować operację skalowania tensorów (mnożenie każdego elementu przez skalar) wspierającą wiele typów danych: FP16, BF16 i FP32. Tutorial pokazuje pełny przepływ pracy: definicję jądra CUDA w nagłówkach, launcher do uruchomienia na GPU oraz integrację z frameworkiem. Idealne dla inżynierów pracujących nad optymalizacją GPU i chcących rozszerzyć możliwości FlashInfer o własne operacje.

Jak używać

Sklonuj repozytorium FlashInfer z gałęzi zawierającej skill: git clone https://github.com/flashinfer-ai/flashinfer.git i przejdź do katalogu projektu.
Utwórz nowy plik nagłówka w katalogu include/flashinfer/ (np. scale.cuh) i zdefiniuj jądro CUDA jako szablon funkcji global przyjmujący wskaźniki do tensora wejściowego, tensora wyjściowego, współczynnika skalowania i liczby elementów.
Dodaj funkcję launcher (np. ScaleLauncher) która oblicza liczbę bloków i wątków na podstawie liczby elementów, a następnie uruchamia jądro CUDA z odpowiednimi parametrami siatki i strumienia.
Upewnij się, że implementacja używa szablonów typów (template) aby wspierać FP16, BF16 i FP32 bez duplikacji kodu.
Zintegruj nową operację z resztą biblioteki FlashInfer, dodając odpowiednie deklaracje w plikach nagłówkowych i testując jądro z różnymi typami danych i rozmiarami tensorów.
Skompiluj projekt i uruchom testy aby upewnić się, że jądro działa poprawnie na docelowym GPU.

Podobne skille

pdf-to-markdown

autor: aliceisjustplaying

Konwertuj całe PDFy na uporządkowany Markdown z zachowaniem formatowania i struktur

Backend

355664

youtube-transcribe-skill

autor: feiskyer

Pobierz napisy z YouTube'a i zapisz je lokalnie w kilka sekund

Backend

24178

stripe-integration

autor: wshobson

Integracja płatności Stripe z pełną obsługą subskrypcji i webhooków

Backend

40147

literature-review

autor: K-Dense-AI

Systematyczne przeglądy literatury naukowej z weryfikacją cytacji i formatowaniem PDF

Backend

238507

supabase-operations

autor: elevanaltd

Waliduj migracje bazy danych i optymalizuj polityki bezpieczeństwa w Supabase

Backend

27109

sql-optimization-patterns

autor: wshobson

Zoptymalizuj zapytania SQL i przyspeszy bazę danych dzięki analizie planów wykonania i strategiom indeksowania.

Backend

40163