Imputationskvalitet
Imputationskvalitet avser hur pålitliga de imputerade värdena är och hur väl de speglar de saknade sanna observationerna i ett dataset. Den påverkar hur tillförlitliga resultat och slutsatser blir när data används i statistiska analyser eller modeller. Kvaliteten bedöms vanligtvis genom validering eller inbyggda mått i imputationsprocedurer, där imputationen jämförs med kända värden eller bedöms utifrån hur väl modellen förutsäger saknade observationer.
Vanliga mått och metoder inkluderar:
- För kvantitativa variabler: RMSE (root mean squared error), MAE (mean absolute error) och R^2 mellan imputerade
- För kategoriska variabler: noggrannhet (accuracy), Brier score och logförlust.
- Inom genetik och vissa domäner används ofta information- eller Rsq-relaterade mått för att beskriva imputationskvalitet.
- För modeller som hanterar osäkerhet används flera imputationsdatasets (MI), och resultaten kombineras enligt Rubin's regler.
Faktorer som påverkar imputationskvaliteten inkluderar saknad data-mekanism (MCAR, MAR, MNAR), andelen saknade värden, korrelationsstruktur och förklarande
Betydelse och konsekvenser: låg imputationskvalitet kan introducera bias, minska statistisk kraft och leda till felaktiga slutsatser.
Förbättring: välj lämplig imputationsmetod, inkludera relevanta förklarande variabler, använd multiple imputation för att bevara osäkerhet, och