Home

Kodierungsformate

Kodierungsformate, auch Zeichensatzkodierungen genannt, sind Verfahren, um Zeichen in eine digitale Folge von Bits zu übersetzen. Sie legen fest, welcher Bitmuster welchem Zeichen entspricht und wie mehrsprachige Zeichen behandelt werden. Sie betreffen Textdaten ebenso wie andere Daten, die als Zeichenfolgen interpretiert werden.

Zu den verbreiteten Kodierungsformaten für Zeichen gehören ASCII, ISO-8859-1, Windows-1252 sowie die Unicode-Familie UTF-8, UTF-16 und

Unicode ist der standardisierte Rahmen für Textkodierungen in modernen Systemen. UTF-8 ist der De-facto-Standard im Web.

Neben Zeichensätzen gibt es Encoder-Formate für binäre Daten wie Base64; auch Quoted-Printable oder URL-Encoding dienen der

Praktische Hinweise: Es ist ratsam, das Encoding entsprechend der Zielplattformen auszuwählen und in Anwendungen zu deklarieren.

UTF-32.
Unicode
zielt
darauf
ab,
alle
Schriftzeichen
abzubilden,
während
UTF-8
eine
variable
Länge
nutzt
und
ASCII-kompatibel
bleibt.
UTF-16
und
UTF-32
unterscheiden
sich
zudem
in
der
Byte-Reihenfolge
und
können
Byte
Order
Marks
verwenden.
In
Dateien
und
Protokollen
werden
oft
Metadaten
angegeben,
die
den
Zeichensatz
festlegen
(z.
B.
charset
in
HTTP
oder
meta
charset
in
HTML).
Um
Vergleiche
von
Text
zu
erleichtern,
kommen
Normalformen
wie
NFC
häufig
zum
Einsatz.
sicheren
Darstellung
von
Text
in
bestimmten
Kontexten.
Das
Mischen
unterschiedlicher
Kodierungen
sollte
vermieden
werden,
und
Texte
sollten
auf
falsche
Deklarationen
oder
das
Auftreten
von
Mojibake
geprüft
werden.