Home

EMMethoden

EMMethoden, kurz für Expectation-Maximization-Methoden, sind eine Klasse von Algorithmen zur Maximum-Likelihood-Schätzung in statistischen Modellen, die latente Variablen enthalten oder bei denen Daten fehlen. Der EM-Algorithmus wurde 1977 von Dempster, Laird und Rubin eingeführt. Er arbeitet in zwei Schritten, die in jeder Iteration wiederholt werden: E-Schritt (Erwartung) berechnet die bedingte Verteilung der latenten Variablen bzw. der fehlenden Daten gegeben die aktuellen Parameter; M-Schritt (Maximierung) maximiert die erwartete vollständige Log-Likelihood bezüglich der Parameter und liefert neue Werte. Die Likelihood steigt monoton an und konvergiert typischerweise gegen eine lokale Maximum-Likelihood-Lösung.

Typische Anwendungen umfassen Schätzungen in Mischmodellen, insbesondere Gaußsche Mischungen, Hidden-Markov-Modelle, Faktormodelle mit fehlenden Daten sowie Imputation

Varianten und Erweiterungen umfassen Generalized EM (GEM), bei dem die M-Schritt-Optimierung nicht vollständig maximiert wird, sowie

Historisch war der EM-Algorithmus ein Meilenstein in Statistik und maschinellem Lernen und wird in Softwarepaketen von

von
fehlenden
Werten.
EM-Methoden
ermöglichen
die
Behandlung
unvollständiger
Daten,
indem
latente
Variablen
in
die
Wahrscheinlichkeitsstruktur
eingebaut
werden,
statt
direkter
Maximierung
der
Likelihood
über
unbestimmte
Daten.
Online-
oder
Stochastic
EM
für
große
oder
Streaming-Datensätze.
Weitere
Näherungen
sind
Variational-EM,
das
eine
Bayesian-inspirierte
Abschätzung
nutzt,
und
verschiedene
adaptierte
Versionen
für
spezielle
Modellstrukturen.
Vorteile
sind
Robustheit
und
einfache
Implementierung
in
vielen
Modellszenarien;
Nachteile
umfassen
die
Möglichkeit
der
Konvergenz
zu
lokalen
Maxima,
Abhängigkeit
von
Startwerten
und
langsame
Konvergenz
nahe
dem
Optimum.
R,
Python
und
MATLAB
weit
verbreitet
implementiert.