Paraphraseerkennung

Paraphrase-Erkennung bezeichnet die Aufgabe, zwei Textpassagen dahingehend zu beurteilen, ob sie dieselbe Bedeutung wiedergeben. Sie gehört zum Bereich der semantischen Textähnlichkeit und findet Anwendung in Forschung und Praxis, etwa bei Suchmaschinen, Plagiatsprüfungen oder Frage-Antwort-Systemen. Unterschiede zur reinen Textähnlichkeit bestehen darin, dass Paraphrasen semantisch äquivalent sein können trotz unterschiedlicher Formulierungen, während Oberflächenähnlichkeit variieren kann.

Ansätze reichen von regelbasierten oder eigenschaftsorientierten Modellen bis zu neuronalen Netzwerken. Traditionell wurden Merkmale wie Wortüberlappungen,

Moderne Ansätze verwenden tiefe Lernmodelle. Bi- oder Cross-Encoder-Architekturen verarbeiten die beiden Textpassagen gemeinsam und liefern eine

Wichtige Datensätze umfassen Quora Question Pairs, Microsoft Research Paraphrase (MRPC) und PAWS (Paraphrase Adversarial Word-Perturbed Sentences).

Herausforderungen sind mehrdeutige Ausdrücke, Negationen, Modality, Weltwissen und kulturelle Kontexte, sowie Verzerrungen in Datensätzen und Bewertungsmetriken

n-gramm-Ähnlichkeiten,

Vektorraummodellen

Klassifikatoren

Paraphrase-Wahrscheinlichkeit.

Sentence-BERT-Varianten

Paraphrase-Datensätzen

Umstrukturierung

domänenspezifische

Plagiatsprüfung,

Textvereinfachung,

Frage-Antwort-Systeme,

Textgenerierung.

Domänenanpassungen