Lückenkodierung

Lückenkodierung, oft auch als Gap-Encoding bezeichnet, ist eine Codierungstechnik zur Darstellung von Sequenzen, in denen zwischen relevanten Symbolen häufig Lücken auftreten. Die Grundidee besteht darin, nicht jedes Symbol der ursprünglichen Sequenz zu speichern, sondern die Abstände (Lückenlängen) zwischen aufeinanderfolgenden gespeicherten Symbolen zu kodieren. Dadurch ergibt sich eine kompaktere Darstellung, wenn die Sequenz viele Lücken enthält.

Funktionsweise: Bei der Lückenkodierung werden typischerweise zwei Informationen gespeichert: die tatsächlich vorhandenen Symbole und die Längen

- positionsbasierte Kodierung: Es werden die Werte der nicht-leeren Positionen zusammen mit den Abständen zu den vorhergehenden

- rein gap-basierte Kodierung: Es werden nur die Lückenlängen zwischen den Symbolen angegeben, zusammen mit den jeweiligen

Beispiel: Eine Sequenz der Länge 100 enthält an den Positionen 5, 20 und 75 die Buchstaben A,

Anwendungen: Lückenkodierung findet Anwendung in der Genomik (Sequenzabgleich, Alignmentspeicherung), bei Differenzkodierungen in Versionierungssystemen sowie in der

Vorteile und Nachteile: Sie spart Speicherplatz bei vielen Lücken und ermöglicht teilweise schnellen Zugriff auf die

T

G

4

unregelmäßigen