klassifikasjonsproblem
Et klassifikasjonsproblem er et maskinlæringsproblem der målet er å tilordne hver inndata en eller flere etiketter fra et fast sett av klasser basert på kjennetegn ved observasjonen. Typisk er problemet overvåket: treningsdataene består av par (x, y) der y er riktig klasse for x, og modellen lærer å mappe x til y.
Formelt er x en vektor av trekk, x ∈ R^n, og y tilhører et sett av klasser L.
Vanlige algoritmer inkluderer logistisk regresjon, beslutningstrær, random forest, gradient boosting (for eksempel XGBoost), støttevektor-maskiner, k-nearest neighbors
Evaluering: Vanlige mål er nøyaktighet, presisjon, recall og F1-score, samt ROC-AUC for skjevfordelte data. En konfusjonsmatrise
Dataforberedelse og utfordringer: God ytelse krever riktig featurering, normalisering og håndtering av manglende verdier. Ulike klassefordelinger
Anvendelser: Tekstklassifisering (spam, sentiment), bilde- og talenær klassifisering, medisinsk diagnose, kredittvurdering og andre beslutningsstøtteoppgaver.