Textpaare
Textpaare sind Paare von Texten, die denselben Inhalt in unterschiedlichen Sprachfassungen oder Varianten wiedergeben. In der Sprach- und Computerlinguistik dienen sie vor allem als Grundlage für parallele Korpora, maschinelle Übersetzung und linguistische Analysen.
Typen: Bilinguale Textpaare bestehen aus parallelisierten Texten in zwei Sprachen; monolinguale Textpaare enthalten paraphrasierte oder stilistisch
Aufbau: Textpaare werden typischerweise auf Satz- oder Absatzebene ausgerichtet und mit Metadaten wie Quelle, Sprache, Veröffentlichungsdatum
Erzeugung: Sammlungen entstehen durch Übersetzungen, zweisprachige Ausgaben, Untertitel oder Web-Datensätze. Die Ausrichtung erfolgt entweder manuell oder
Anwendungen: Textpaare dienen dem Training und der Bewertung von maschineller Übersetzung, der Paraphrase-Erkennung, dem Cross-Language Information
Beispiele: Bekannte Repositorien umfassen den Europarl-Korpus, den United Nations Parallel Corpus und das OPUS-Projekt. Auch TED-Talks-
Herausforderungen: Urheberrecht, Domänen- und Stilinkonsistenzen, fehlerhafte Ausrichtung sowie Unterschiede in Satz- oder Absatzgrenzen.
Siehe auch: Parallelkorpus, Satz-Ausrichtung, Bilinguale Lexika.