FellegiSunterrammeverket
Fellegi-Sunterrammeverket, ofte kalt Fellegi–Sunter-modellen, er et probabilistisk rammeverk for rekordsammenkobling og deduplicering av poster i datasett. Målet er å avgjøre om to poster refererer til samme enhet basert på samsvar i ulike felt som navn, adresse og fødselsdato, der feltene kan inneholde feil eller variasjon.
Kjernen i rammeverket er bruken av sammenligningsvektorer og to sett sannsynligheter: m-probabilitetene og u-probabilitetene. m-probabilitetene beskriver
Estimering og gjennomføring skjer ofte escrow- eller usupervisert, og kan bruke EM-algoritmen for å estimere m-
Rammeverket har bred anvendelse i kobling av registre, dataintegrasjon, og deduplicering i folke- og helsedata, nasjonale
Begrensninger inkluderer antakelsen om uavhengighet mellom felt og behov for kvalitetsdata for presise estimater. Modellens ytelse
Se også: probabilistisk kobling, bayesianske tilnærminger og moderne rekordsammenkoblingsmetoder.