Home

InformationsExtraktion

Informationsextraktion ist ein Bereich der Informatik und der natürlichen Sprachverarbeitung, der sich damit befasst, aus unstrukturierten Texten strukturierte Informationen zu gewinnen. Ziel ist es, automatisiert Entitäten, Relationen und Ereignisse zu identifizieren und in maschinenlesbare Form zu überführen, zum Beispiel in Tabellen, Wissensbasen oder Fachdatenbanken.

Zu den zentralen Aufgaben gehören Named-Entity-Erkennung (NER) zur Identifikation von Personen, Orten, Organisationen und anderen Entitäten;

Typische Ansätze kombinieren regelbasierte Systeme, statistische Lernmethoden und tiefergehende neuronale Netze. Die Verarbeitungspipeline umfasst Vorverarbeitung (Tokenisierung,

Anwendungsgebiete liegen in der Information Retrieval, dem Wissensmanagement, Business Intelligence, Biomedizin, Finanzwesen und Nachrichtendiensten. IE dient

Herausforderungen betreffen Mehrdeutigkeit, Grammatikvielfalt, Domänenwechsel, Sprach- und Schreibvarianten, unvollständige oder fehlerhafte Texte sowie Evaluationen, da exakte

Relationsextraktion
zur
Bestimmung
von
Beziehungen
zwischen
Entitäten;
sowie
Ereignisextraktion
zur
Extraktion
von
Ereignissen,
deren
Akteure,
Zeitpunkte
und
Ort.
Fortschritte
in
der
Kernauflösung
ermöglichen
es,
verschiedene
Ausprägungen
derselben
Entität
zu
verknüpfen.
POS-Tagging,
Parsen),
Entitätenerkennung,
Relationsextraktion
und
Ereignisextraktion
sowie
die
Integration
in
Zielformate
wie
Wissensgraphen
oder
relationale
Datenbanken.
Quellen
umfassen
Nachrichtenartikel,
Forschungsberichte,
Webseiten
und
domänenspezifische
Texte.
auch
als
Vorbereitungsschritt
für
Frage-Antwort-Systeme,
Textzusammenfassungen
oder
die
Extraktion
von
Kennzahlen.
Referenzdaten
oft
knapp
sind.
Typische
Evaluationsmetriken
sind
Präzision,
Recall
und
F1-Wert.