datasamkjøring
Datasamkjøring er prosessen der data fra flere kilder kobles og integreres til et felles datasett som kan brukes til analyse, statistikk eller beslutningsstøtte. Hensikten er å få bedre innsikt enn hva enkeltkilder kan gi ved å identifisere og slå sammen poster som refererer til samme enhet, person eller hendelse.
Metoder inkluderer data matching og record linkage, som bruker deterministiske regler (eksakt samsvar på identifikatorer) og
Personvern og regelverk er viktig. Datasamkjøring krever tydelige dataavtaler, tilgangskontroll, pseudonymisering eller anonymisering der det er
Anvendelser inkluderer offentlig forvaltning, statistikkproduksjon, helseforskning, flersektorielle forskningsprosjekter og forretningsanalyse som kundeadferd og risikoanalyser.
Utfordringer inkluderer datakvalitetsproblemer, semantisk heterogenitet, feilmatching og bias, samt tekniske utfordringer som skalerbarhet og behov for
Teknologier og praksiser omfatter ETL-prosesser, data lakes og data warehouses, master data management, datapolitikk og datakataloger,