benchmark-kernel

Name: benchmark-kernel
Author: flashinfer-ai

autor: flashinfer-ai

Precyzyjne pomiary wydajności jąder GPU FlashInfer z profilowaniem sprzętowym CUPTI

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: flashinfer-ai
Kategoria: Backend

Repozytorium GitHub

O skillu

Skill do benchmarkowania jąder FlashInfer z dokładnym pomiarem czasu wykonania na GPU. Obsługuje dwie metody timingu: CUPTI (sprzętowe profilowanie dla najwyższej precyzji) oraz CUDA Events (rezerwowe). Pozwala porównać wydajność różnych backendów (FlashAttention2/3, cuDNN, CUTLASS, TensorRT-LLM) i zapisać wyniki do CSV. Automatycznie wybiera CUPTI jeśli jest dostępny, w przeciwnym razie przechodzi na CUDA Events. Wymaga CUDA 13+ dla pełnej funkcjonalności.

Jak używać

Zainstaluj CUPTI dla najdokładniejszych pomiarów: uruchom pip install -U cupti-python. Wymaga CUDA 13 lub nowszej. Jeśli CUPTI nie jest dostępny, skill automatycznie przejdzie na CUDA Events i wyświetli ostrzeżenie.
Wybierz rutynę testową z dostępnych opcji: Attention (BatchDecodeWithPagedKVCacheWrapper, BatchPrefillWithPagedKVCacheWrapper, BatchPrefillWithRaggedKVCacheWrapper, BatchMLAPagedAttentionWrapper), GEMM (bmm_fp8, gemm_fp8_nt_groupwise, group_gemm_fp8_nt_groupwise, mm_fp4) lub MOE (trtllm_fp4_block_scale_moe, trtllm_fp8_block_scale_moe, trtllm_fp8_per_tensor_scale_moe, cutlass_fused_moe).
Uruchom benchmark dla wybranej rutyny za pomocą skryptu flashinfer_benchmark.py z parametrami określającymi typ testu i konfigurację.
Skill zmierzy czysty czas wykonania jądra GPU bez narzutu komunikacji host-device (CUPTI) lub z minimalnym narzutem (CUDA Events).
Wyniki będą zapisane w formacie CSV do analizy i porównania wydajności między różnymi backendami.

Podobne skille

openspec

autor: ruan-cat

Narzędzie do zarządzania specyfikacjami w projektach AI – dokumentuj wymagania przed kodowaniem i unikaj nieporozumień z asystentem.

Backend

27122

youtube-transcript

autor: michalparkola

Pobierz transkrypcje z filmów YouTube za pomocą Claude – automatycznie wyodrębnia napisy i transkrypcje.

Backend

53214

postgresql-psql

autor: timelessco

Interaktywny terminal do PostgreSQL – wykonuj zapytania, zarządzaj bazami i automatyzuj administrację

Backend

34173

find-skills

autor: openstatusHQ

Odkrywaj i instaluj umiejętności agenta dopasowane do Twoich potrzeb

Backend

150111

travel-planner

autor: ailabs-393

Spersonalizowane plany podróży z itinerariuszami, budżetami i poradami kulturowymi

Backend

4379

supabase-developer

autor: daffy0208

Buduj pełnostackowe aplikacje z PostgreSQL, autentykacją i funkcjami serverless

Backend

78170