Zeichenkodierungen

Zeichenkodierungen, auch Zeichencodierungen genannt, sind Systeme zur Darstellung von Zeichen als Bytes und damit zur Speicherung, Übermittlung und Verarbeitung von Text. Sie legen fest, welchem Bytemuster ein Zeichen zugeordnet wird. Damit unterscheiden sie sich vom Zeichensatz, der die Gesamtheit der Zeichen bezeichnet, während die Kodierung die konkrete Byte-Darstellung abbildet. Unicode dient heute als zentraler Zeichensatz, der Codepunkte umfasst, die alle Schrift- und Symbolzeichen weltweit beschreiben. Konkrete Encodings sind UTF-8, UTF-16 und UTF-32.

Häufige Kodierungen: ASCII ist ein 7-Bit-Zeichensatz mit 128 Zeichen. ISO/IEC 8859-1 (Latin-1) und Nachfahren erweitern auf

Anwendung: Im Web dominiert UTF-8. In Dateien, Datenbanken und APIs muss der verwendete Zeichensatz korrekt deklariert

Historie: ASCII entstand in den 1960er Jahren; ISO 8859-Familien verbreiteten sich in den 1980ern. Unicode setzte

Richtlinien: Für neue Systeme ist UTF-8 zu empfehlen; Angabe des Zeichensatzes in Dateien oder Protokollen verhindert

8

Unicode-Codepunkt

ASCII-kompatibel

vier-Byte-Einheiten;

standardisiert.

Interpretationsfehler;