Home

Paraphraseerkennung

Paraphrase-Erkennung bezeichnet die Aufgabe, zwei Textpassagen dahingehend zu beurteilen, ob sie dieselbe Bedeutung wiedergeben. Sie gehört zum Bereich der semantischen Textähnlichkeit und findet Anwendung in Forschung und Praxis, etwa bei Suchmaschinen, Plagiatsprüfungen oder Frage-Antwort-Systemen. Unterschiede zur reinen Textähnlichkeit bestehen darin, dass Paraphrasen semantisch äquivalent sein können trotz unterschiedlicher Formulierungen, während Oberflächenähnlichkeit variieren kann.

Ansätze reichen von regelbasierten oder eigenschaftsorientierten Modellen bis zu neuronalen Netzwerken. Traditionell wurden Merkmale wie Wortüberlappungen,

Moderne Ansätze verwenden tiefe Lernmodelle. Bi- oder Cross-Encoder-Architekturen verarbeiten die beiden Textpassagen gemeinsam und liefern eine

Wichtige Datensätze umfassen Quora Question Pairs, Microsoft Research Paraphrase (MRPC) und PAWS (Paraphrase Adversarial Word-Perturbed Sentences).

Herausforderungen sind mehrdeutige Ausdrücke, Negationen, Modality, Weltwissen und kulturelle Kontexte, sowie Verzerrungen in Datensätzen und Bewertungsmetriken

Synonymie,
n-gramm-Ähnlichkeiten,
syntaktische
Strukturen
oder
semantische
Ähnlichkeit
durch
Vektorraummodellen
genutzt.
Klassifikatoren
wie
Support
Vector
Machines
oder
logistische
Regression
wurden
auf
diese
Merkmale
trainiert.
Paraphrase-Wahrscheinlichkeit.
Beliebte
Encoder
sind
BERT,
RoBERTa
oder
XLM-R;
oft
kommen
Sentence-BERT-Varianten
zum
Einsatz,
um
effiziente
Satzindizes
zu
erzeugen.
Pretraining
und
Fine-Tuning
auf
Paraphrase-Datensätzen
verbessern
Robustheit
gegenüber
Synonymie,
Umstrukturierung
und
Negationen.
Es
gibt
auch
mehrsprachige
und
domänenspezifische
Korpora.
Anwendungen
umfassen
Plagiatsprüfung,
Textvereinfachung,
maschinelle
Übersetzung,
Frage-Antwort-Systeme,
semantische
Suchdienste
und
Bewertung
von
Textgenerierung.
wie
Genauigkeit,
F1-Score
oder
AUC.
Die
Abgrenzung
zwischen
Paraphrase
und
semantischer
Nähe
ist
oft
nicht
eindeutig,
weshalb
robuste
Evaluation
und
Domänenanpassungen
wichtig
sind.