modellinterpretasjon
Modellinterpretasjon er studiet av i hvilken grad det er mulig å forstå og begrunne beslutningene til en maskinlæringsmodell. Målet er å gjøre modellens beslutninger tilgjengelige for mennesker, avdekke feil og skjevheter, og dermed støtte ansvarlig bruk. Man skiller ofte mellom global tolkning av modellens generelle atferd og lokal tolkning av enkelte prediksjoner.
Det finnes to hovedelementer: intrinsisk tolkbare modeller og post-hoc forklaringer. Intrinsisk tolkbare modeller har strukturer som
Vanlige metoder inkluderer trekk- eller funksjonsbetydning (feature importance), permutasjonsbasert vurdering, SHAP- og LIME-forklaringer, partielle avhengighetsplott (PDP)
Anvendelser finnes i finans, helsevesen, HR og offentlig sektor. Hovedformålene er å øke tillit, oppfylle regelverk,
Utfordringer inkluderer at tolkbarhet noen ganger kommer på bekostning av prediksjonenes nøyaktighet, og at forklaringer kan