evaluating-code-models

Name: evaluating-code-models
Author: davila7

autor: davila7

Testuj modele generowania kodu na 15+ benchmarkach z metryką pass@k

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: davila7
Kategoria: Testowanie

Repozytorium GitHub

O skillu

Narzędzie do ewaluacji modeli kodowania na standardowych benchmarkach: HumanEval, MBPP, MultiPL-E i ponad 15 innych. Mierzysz jakość generowania kodu, porównujesz zdolności kodowania modeli i testujesz wsparcie dla wielu języków programowania. Używany przez HuggingFace leaderboards — standard branżowy z projektu BigCode.

Jak używać

Sklonuj repozytorium BigCode Evaluation Harness i przejdź do katalogu projektu: git clone https://github.com/bigcode-project/bigcode-evaluation-harness.git, następnie cd bigcode-evaluation-harness.
Zainstaluj pakiet wraz z zależnościami (transformers ≥4.25.1, accelerate ≥0.13.2, datasets ≥2.6.1) poleceniem pip install -e . i skonfiguruj akcelerator: accelerate config.
Wybierz benchmark do testowania. Najczęściej używane to HumanEval (164 problemy kodowania), MBPP (500 zadań crowdsourcowanych) lub MultiPL-E (18 języków programowania). Listę wszystkich dostępnych zadań wyświetlisz poleceniem: python -c "from bigcode_eval.tasks import ALL_TASKS; print(ALL_TASKS)".
Uruchom ewaluację modelu na wybranym benchmarku. Przykład dla modelu starcoder2-7b na HumanEval: accelerate launch main.py --model bigcode/starcoder2-7b --tasks humaneval --max_length_generation 512 --temperature 0.2 --n_samples 20 --batch_size 10 --allow_code_execution --save_generations. Dostosuj parametry: model (nazwa modelu), tasks (benchmark), temperature (losowość), n_samples (liczba prób na problem).
Czekaj na zakończenie ewaluacji. Narzędzie wykonuje kod i mierzy pass@k — procent problemów rozwiązanych w co najmniej k próbach. Wyniki zapisywane są do pliku, jeśli użyjesz flagi --save_generations.
Przeanalizuj wyniki w wygenerowanym raporcie. Porównaj metryki pass@1, pass@10 lub pass@100 między modelami, aby ocenić ich zdolności do generowania poprawnego kodu na wybranych benchmarkach.

Podobne skille

powershell-windows

autor: davila7

Poznaj pułapki PowerShella na Windows – operator syntax, obsługa błędów, bezpieczne ścieżki

Testowanie

1074

code-review-excellence

autor: wshobson

Konstruktywne recenzje kodu, które łapią błędy i budują wiedzę zespołu

Testowanie

1145

code-reviewer

autor: google-gemini

Automatyczne przeglądy kodu dla zmian lokalnych i Pull Requestów

Testowanie

1248

qa-tester

autor: svilupp

Automatyczne testowanie aplikacji webowych – wykrywaj błędy funkcjonalne, bezpieczeństwa i UX

Testowanie

2399

playwright-browser-automation

autor: lackeyjb

Automatyzuj testy stron i interakcje przeglądarki za pomocą Playwright

Testowanie

13130

playwright-cli

autor: microsoft

Automatyzuj interakcje w przeglądarce – testy, formularze, zrzuty ekranu i ekstrakcja danych

Testowanie

45103