Home

hiperparametrów

Hiperparametry to parametry określające architekturę modelu i sposób uczenia, które ustawiane są przed treningiem i nie są bezpośrednio wyuczone z danych. W odróżnieniu od wag i biasów, które są optymalizowane w trakcie uczenia, hiperparametry wpływają na sposób, w jaki model się uczy oraz na jego zdolność do generalizacji. Przykłady obejmują liczbę warstw i jednostek w sieci neuronowej, typ funkcji aktywacyjnej, tempo uczenia (learning rate), rozmiar partii (batch size) oraz poziom regularizacji (L1/L2, dropout). Dodatkowo w klasyfikatorach i algorytmach klasyfikacyjnych pojawiają się parametry takie jak stała C i gamma w SVM, liczba drzew i maksymalna głębokość w lasach losowych, a także parametr k w k-NN.

Dobór hiperparametrów jest procesem kosztownym, ponieważ wymaga trenowania modelu dla wielu konfiguracji. Stosuje się różne metody:

Praktyczne wskazówki obejmują zaczynanie od domyślnych wartości, używanie skal logarytmicznych dla niektórych parametrów (np. tempo uczenia,

przeszukiwanie
siatki
(grid
search),
przeszukiwanie
losowe
(random
search),
optymalizację
bayesowską,
Hyperband
i,
w
niektórych
przypadkach,
metody
ewolucyjne.
Celem
jest
znalezienie
zestawu
parametrów,
który
daje
najlepsze
wyniki
na
zbiorze
walidacyjnym
i
generalizuje
na
dane.
liczba
warstw)
oraz
stosowanie
walidacji
krzyżowej.
Ważne
jest,
aby
nie
dopasowywać
hiperparametrów
tylko
do
jednego
zestawu
danych;
oceny
dokonuj
na
zestawie
walidacyjnym
i,
ostatecznie,
na
zbiorze
testowym.