Volltexten
Volltexten bezeichnet in der Informationsverarbeitung den Prozess und das Ergebnis, den vollständigen Text eines Dokuments oder einer Textsammlung maschinell zugänglich zu machen und zu indexieren, sodass gezielte Abfragen den gesamten Wortlaut durchsuchen können. In der Praxis wird häufig von Volltextindexierung gesprochen, bei der der Text in einer Datenbank oder einem Suchsystem in einzelne Tokens zerlegt, normalisiert und mit Metadaten verknüpft wird. Ziel ist die schnelle Auffindbarkeit auch bei komplexen Suchanfragen (Wortformen, Phrasen, boolesche Operatoren, Wildcards). Volltextdatenbanken und Suchmaschinen setzen Techniken der Information Retrieval ein, wie Tokenisierung, Stemming, Stopword-Filterung, sowie Ranking-Modelle wie TF-IDF oder BM25.
Arten von Volltexten umfassen den reinen Fließtext der Dokumente, häufig einschließlich Überschriften, Absätzen und ggf. Bildunterschriften,
Herausforderungen umfassen urheber- und lizenzrechtliche Rahmenbedingungen, Verfügbarkeit des Volltexts, Speicher- und Verarbeitungsbedarf, Qualität der Texterkennung bei
Siehe auch: Volltextsuche, Volltextdatenbank, OCR, Information Retrieval.