Home

Zeichenkodierungen

Zeichenkodierungen, auch Zeichencodierungen genannt, sind Systeme zur Darstellung von Zeichen als Bytes und damit zur Speicherung, Übermittlung und Verarbeitung von Text. Sie legen fest, welchem Bytemuster ein Zeichen zugeordnet wird. Damit unterscheiden sie sich vom Zeichensatz, der die Gesamtheit der Zeichen bezeichnet, während die Kodierung die konkrete Byte-Darstellung abbildet. Unicode dient heute als zentraler Zeichensatz, der Codepunkte umfasst, die alle Schrift- und Symbolzeichen weltweit beschreiben. Konkrete Encodings sind UTF-8, UTF-16 und UTF-32.

Häufige Kodierungen: ASCII ist ein 7-Bit-Zeichensatz mit 128 Zeichen. ISO/IEC 8859-1 (Latin-1) und Nachfahren erweitern auf

Anwendung: Im Web dominiert UTF-8. In Dateien, Datenbanken und APIs muss der verwendete Zeichensatz korrekt deklariert

Historie: ASCII entstand in den 1960er Jahren; ISO 8859-Familien verbreiteten sich in den 1980ern. Unicode setzte

Richtlinien: Für neue Systeme ist UTF-8 zu empfehlen; Angabe des Zeichensatzes in Dateien oder Protokollen verhindert

8
Bit.
Windows-1252
ist
eine
verbreitete
Variante
unter
Windows.
UTF-8
ist
eine
universelle,
variabel
lange
Kodierung,
die
jeden
Unicode-Codepunkt
darstellt
und
ASCII-kompatibel
bleibt.
UTF-16
und
UTF-32
verwenden
zwei-
bzw.
vier-Byte-Einheiten;
UTF-16
nutzt
Endianness
und
oft
einen
Byte
Order
Mark
(BOM).
werden.
Falsche
Decodierung
führt
zu
Mojibake,
also
Lesefehlern.
sich
in
den
1990er/2000er
Jahren
durch.
UTF-8
wurde
in
den
1990er
Jahren
entwickelt
und
in
RFC
2279
(1998)
sowie
RFC
3629
(2003)
standardisiert.
Interpretationsfehler;
bei
bestehenden
Systemen
gilt
eine
sorgfältige
Migration
und
konsistente
Dekodierung.