Home

Volltexten

Volltexten bezeichnet in der Informationsverarbeitung den Prozess und das Ergebnis, den vollständigen Text eines Dokuments oder einer Textsammlung maschinell zugänglich zu machen und zu indexieren, sodass gezielte Abfragen den gesamten Wortlaut durchsuchen können. In der Praxis wird häufig von Volltextindexierung gesprochen, bei der der Text in einer Datenbank oder einem Suchsystem in einzelne Tokens zerlegt, normalisiert und mit Metadaten verknüpft wird. Ziel ist die schnelle Auffindbarkeit auch bei komplexen Suchanfragen (Wortformen, Phrasen, boolesche Operatoren, Wildcards). Volltextdatenbanken und Suchmaschinen setzen Techniken der Information Retrieval ein, wie Tokenisierung, Stemming, Stopword-Filterung, sowie Ranking-Modelle wie TF-IDF oder BM25.

Arten von Volltexten umfassen den reinen Fließtext der Dokumente, häufig einschließlich Überschriften, Absätzen und ggf. Bildunterschriften,

Herausforderungen umfassen urheber- und lizenzrechtliche Rahmenbedingungen, Verfügbarkeit des Volltexts, Speicher- und Verarbeitungsbedarf, Qualität der Texterkennung bei

Siehe auch: Volltextsuche, Volltextdatenbank, OCR, Information Retrieval.

wobei
Scans
oft
mittels
optischer
Zeichenerkennung
(OCR)
in
maschinenlesbaren
Text
überführt
werden.
Anwendungen
finden
sich
in
digitalen
Bibliotheken,
juristischen
Datenbanken,
wissenschaftlichen
Repositorien,
News-Archiven
und
Content-Management-Systemen.
gescannten
Dokumenten
sowie
mehrsprachige
Inhalte
und
semantische
Suchanforderungen.
Die
Volltextsuche
ist
eng
mit
Volltextdatenbanken
verbunden
und
bietet
im
Vergleich
zu
metadatenbasierter
Suche
oft
eine
höhere
Treffergenauigkeit,
erfordert
jedoch
entsprechende
Infrastruktur.