Informationsudvinding
Informationsudvinding er en disciplin inden for informations- og tekstanalyse, der fokuserer på automatisk at identificere og udtrække struktureret information fra ustrukturerede eller semistrukturerede data, typisk tekst. Målet er at gøre indholdet søgbart og maskinelt anvendeligt.
Typiske opgaver inkluderer navnegenkendelse (named entity recognition, NER), relationsekstraktion og hændelsesudtrækning (event extraction). Gennem informationsudvinding identificeres
Processen startes ofte med forbehandling af data, efterfulgt af entitetsgenkendelse, relationsekstraktion og hændelsesudtrækning, coreference resolution og
Kilder og dataforvaltning: informationsudvinding anvendes på nyhedsstrømme, dokumenter, sociale medier og virksomhedsdata. Egne domæner kræver ofte
Anvendelser omfatter automatiseret metadata-generering, forbedret søgning og kildetilknytning, compliance- og risikovurdering, forretningsintelligens, journalistik og sundhedsdataudtræk.
Udfordringer og etik: udfordringer inkluderer sproglig variation, tvetydighed, støj og datakvalitet, samt behovet for domænespecifik træning.
---