Home

Sequenzvergleiche

Sequenzvergleiche bezeichnen Verfahren zur Bestimmung von Ähnlichkeiten oder Unterschieden zwischen zwei oder mehr geordneten Symbolfolgen. Typische Anwendungsfelder reichen von biologischen Sequenzen (DNA, RNA, Proteine) über Textdaten bis hin zu Zeitreihen oder Melodien. Zentral ist das Ermitteln eines oder mehrerer Alignments, das Entsprechungen zwischen Elementen der Sequenzen herstellt und gegebenenfalls Lücken (Gaps) definiert, sowie das Ableiten eines Ähnlichkeits- oder Distanzmaßes.

Grundprinzipien und Varianten

Beim Sequenzvergleichen werden Übereinstimmungen, Unterschiede und Lücken durch Punkt- und Gap-Operationen bewertet. Globale Alignments optimieren die

Anwendungen und Herausforderungen

In der Bioinformatik dienen Sequenzvergleiche der Identifizierung homologer Sequenzen, der Funktions- und Strukturvorhersage sowie der Evolutionsforschung.

Ergebnisorientierung

Das Ergebnis eines Sequenzvergleichs ist typischerweise ein Alignmentschema, ein Ähnlichkeits- oder Distanzwert sowie Einsichten in funktionale

Übereinstimmung
über
die
gesamte
Länge
der
Sequenzen,
lokale
Alignments
suchen
den
bestmöglichen
Übereinstimmungsabschnitt.
Die
Berechnung
erfolgt
häufig
durch
dynamische
Programmierung,
womit
eine
optimale
Zuordnung
unter
Berücksichtigung
von
Gap-Penalties
ermittelt
wird.
Wichtige
Algorithmen
sind
Needleman-Wunsch
(globaler
Alignment)
und
Smith-Waterman
(lokaler
Alignment).
Für
Proteine
werden
Substitutionsmatrizen
wie
PAM
oder
BLOSUM
verwendet,
um
biologisch
wahrscheinliche
Ersetzungen
zu
berücksichtigen.
Die
Ergebnisse
liefern
einen
Alignments-Score
oder
eine
Distanz,
z.
B.
Edit-Distance
(Levenshtein-Distanz)
oder
spezialisierte
Maße.
In
der
Textverarbeitung
unterstützen
sie
Spracherkennung,
Plagiaterkennung
oder
OCR-Fehlerkorrekturen.
Zeitreihen-
oder
Musikvergleiche
finden
Anwendung
in
Mustererkennung
und
Data-Mining.
Herausforderungen
sind
der
Rechenaufwand
bei
großen
Datensätzen,
die
Wahl
geeigneter
Scoring-Schemata,
sowie
die
Handhabung
von
Sequenzlücken
und
Rauschen
in
den
Daten.
oder
evolutionäre
Beziehungen.