textsegmentering
Textsegmentering is het proces van opdelen van een ononderbroken tekst in kleinere eenheden die geschikt zijn voor verdere verwerking. In de natural language processing (NLP) verwijst het meestal naar zinssegmentering en woordsegmentering, maar ook indeling in alinea’s of andere logische segmenten kan relevant zijn. Tekstsegmentering vormt de basis voor taken zoals parsing, informatie-extractie en pre-processing voor zoek- of samenvattingssystemen.
Zinssegmentering, ook wel sentence boundary detection genoemd, bepaalt waar zinnen eindigen op basis van leestekens, hoofdlettergebruik
Woordsegmentering is vaak eenvoudig in talen met duidelijke spatie-insplitsing, maar in talen zonder expliciete woordgrenzen (zoals
Technieken variëren van regel-gebaseerde heuristieken tot statistische modellen (bijvoorbeeld HMM of CRF) en moderne neurale benaderingen
Toepassingen omvatten pre-processing voor zoekmachines en informatiebeheer, machinevertaling, samenvatting en informatie-extractie. Belangrijke uitdagingen blijven ambiguïteit, meertaligheid
Zie ook: tokenization, sentence boundary detection, text processing.