Home

hiperparametry

Hiperparametry to wartości ustawiane przed rozpoczęciem procesu uczenia maszynowego i nie są one wyuczone z danych podczas treningu. W odróżnieniu od parametrów modelu, które są optymalizowane w procesie uczenia, hiperparametry wpływają na sposób i tempo nauki oraz na architekturę samego modelu.

W praktyce hiperparametry obejmują m.in. tempo nauczania (learning rate), rozmiar partii danych (batch size), liczbę warstw

Wybór hiperparametrów ma charakter poznawczy i kosztowny obliczeniowo. Typowe metody to ręczne strojenie, przeszukiwanie w siatce

Niektóre techniki pozwalają na dynamiczną zmianę hiperparametrów podczas treningu, na przykład harmonogramy tempa nauki czy wczesne

Rola hiperparametrów polega na równoważeniu złożoności modelu i możliwości danych, wpływając na dokładność, czas treningu i

i
jednostek
w
sieci,
typ
optymalizatora,
funkcje
aktywacji,
regularizację
(L1/L2),
współczynnik
dropoutu,
inicjalizację
wag
oraz
harmonogramy
ustawień,
takich
jak
zmiana
tempa
nauki
w
czasie
treningu.
Hiperparametry
mogą
być
dyskretne
lub
ciągłe
i
ich
wartości
wpływają
na
szybkość
konwergencji,
stabilność
treningu
oraz
ogólną
zdolność
generalizacji.
(grid
search),
losowe
przeszukiwanie
(random
search),
optymalizacja
bayesowska,
metody
oparte
na
aktywowanym
alokowaniu
zasobów
(Hyperband)
oraz
walidacja
krzyżowa.
Celem
jest
uzyskanie
parametrów,
które
dają
najlepszą
wydajność
na
zestawie
walidacyjnym.
zatrzymanie.
Takie
podejścia
nie
zastępują
klasycznych
hiperparametrów,
lecz
regulują
przebieg
procesu
uczenia.
stabilność
modelu.
W
praktyce
ich
dobór
często
wymaga
automatyzacji
i
eksperymentowania.