Toolverse
Wszystkie skille

hybrid-search-implementation

autor: wshobson

Połącz wyszukiwanie wektorowe i słownikowe dla lepszych wyników w systemach RAG

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Kategoria
Data Science
Wyświetlenia
74

O skillu

Umiejętność łączenia wyszukiwania wektorowego z wyszukiwaniem słownikowym w celu poprawy jakości wyszukiwania. Zastosuj ją podczas budowania systemów RAG, wdrażania wyszukiwarek lub gdy żadne z podejść osobno nie daje wystarczającej liczby trafień. Skill zawiera wzorce architektoniczne oraz cztery metody fuzji wyników: Reciprocal Rank Fusion do zastosowań ogólnych, Linear do elastycznego równoważenia wyników, Cross-encoder dla najwyższej jakości oraz Cascade dla wydajności. Idealna dla systemów, które muszą łączyć semantyczne rozumienie tekstu z dokładnym dopasowaniem słów kluczowych, nazw czy kodów.

Jak używać

  1. Zainstaluj skill w swoim projekcie agenta, dodając moduł hybrid-search-implementation do katalogu umiejętności. Skill zawiera gotowe szablony implementacyjne w Pythonie, które możesz zintegrować z istniejącym kodem.

  2. Przygotuj dwie listy wyników: jedną z wyszukiwania wektorowego (semantic search) oraz drugą z wyszukiwania słownikowego (keyword search). Każdy wynik powinien zawierać identyfikator dokumentu i wynik (score).

  3. Wybierz metodę fuzji odpowiednią do Twojego przypadku użycia. Dla większości scenariuszy zacznij od Reciprocal Rank Fusion (RRF), która jest uniwersalna i nie wymaga dostrajania. Jeśli potrzebujesz kontroli nad wagą każdego podejścia, użyj metody Linear. Dla najwyższej jakości wyników zastosuj Cross-encoder, który ponownie klasyfikuje połączone kandydaty za pomocą modelu neuronowego.

  4. Zaimplementuj wybraną metodę fuzji, przekazując obie listy wyników. W przypadku RRF użyj dostarczonego szablonu z parametrem k (domyślnie 60) – wyższa wartość k daje większą wagę wynikom z niższych pozycji rankingu.

  5. Przetestuj system na zapytaniach zawierających konkretne terminy (nazwy, kody) oraz zapytaniach semantycznych. Hybrid search powinien zwrócić lepsze wyniki niż każde z podejść osobno, szczególnie dla domeny z specjalistycznym słownictwem.

  6. Dostosuj parametry (wagi, wartość k, próg filtrowania w metodzie Cascade) na podstawie wyników testów, aby osiągnąć optymalny balans między precyzją a recall dla Twojego systemu RAG.

Podobne skille