Datenfishing
Datenfishing bezeichnet die Praxis, in großen Datensätzen möglichst lange nach Muster, Beziehungen oder Korrelationen zu suchen, ohne eine vorab festgelegte Hypothese. Ziel ist oft, eine statistisch signifikante Beziehung zu finden, auch wenn sie durch Zufall entsteht. Der Begriff wird häufig kritisch verwendet und steht im Zusammenhang mit Data Snooping und P-Hacking. In datenintensiven Anwendungen testen Analysten vielfache Hypothesen, Modelle oder Variablenkombinationen, bis eine gewünschte Signifikanz erreicht wird. Solches Vorgehen erhöht die Gefahr von falsch-positiven Befunden und spurious correlations, die in neuen Datensätzen nicht reproduziert werden.
Explorative Datenanalyse (EDA) wird in der Praxis mit Datenfishing manchmal verwechselt, ist aber grundsätzlich ein legitimer
Zur Verringerung von Risiken werden Methoden wie Vorregistrierung von Analysen, klare Analysepläne, Kreuzvalidierung, Holdout-Samples sowie Anpassungen
In der Praxis ist Datenfishing in Bereichen wie Marktforschung, Biostatistik oder Social Science weit verbreitet, besonders