Home

Zeichensätzen

Zeichensätze (englisch character sets) sind Sammlungen von Zeichen, die in einem Computersystem verwendet werden können. Ein Zeichensatz beschreibt die verfügbare Zeichenmenge, während eine Zeichencodierung festlegt, wie jedem Zeichen eine Byte- bzw. Bytefolge zugeordnet wird. So ist der Zeichensatz die Welt der Zeichen; die Codierung die Brücke, wie diese Zeichen als Zahlenwerte gespeichert oder übertragen werden.

Historisch gab es verschiedene 7-Bit- und 8-Bit-Encodings. ASCII umfasst 128 Zeichen; ISO/IEC 8859-1 (Latin-1) erweitert 8-Bit-Zeichen.

Unicode wurde entwickelt, um alle Schriftzeichen der Welt abzubilden. Unicode selbst ist eine Zeichentabelle mit Codepunkten

Bei der Softwareentwicklung ist die Wahl des Zeichensatzes/Encodings entscheidend für Interoperabilität, Speichernutzung und Internationalisierung. Heutzutage ist

Zusammenfassend bilden Zeichensätze die Zeichenwelt, während Codierungen die Repräsentation in Bytes bestimmen. Die Vereinheitlichung durch Unicode/UTF-8

In
der
Praxis
existieren
zahlreiche
Codepages
(Windows-1252,
ISO-8859-5
etc.),
die
jeweils
unterschiedliche
Zeichen
unterstützen
und
oft
regionalspezifisch
sind.
Für
Ostasien
gab
es
weitere
Encodings
wie
Shift_JIS
oder
GB2312.
Diese
Encodings
waren
häufig
inkompatibel
miteinander,
was
den
Datenaustausch
erschwerte.
(U+0000
bis
U+10FFFF).
Die
gebräuchlichen
Encodings
zur
Speicherung
von
Unicode-Daten
sind
UTF-8,
UTF-16
und
UTF-32.
UTF-8
ist
variabel
in
der
Länge
(1
bis
4
Byte)
und
kompatibel
mit
ASCII.
UTF-16
verwendet
16-Bit-Schnitte,
oft
mit
Byte-Reihenfolge-Markierung
(BOM).
UTF-32
benutzt
feste
32
Bit.
UTF-8
in
Web
und
vielen
Anwendungen
der
Standard.
Probleme
wie
Mojibake
entstehen,
wenn
Daten
in
unterschiedlicher
Codierung
falsch
interpretiert
werden.
Normalisierung
von
Unicode-Zeichen
(z.
B.
kombiniertes
Zeichen)
kann
erforderlich
sein,
um
Vergleichbarkeit
sicherzustellen.
hat
die
Kompatibilität
deutlich
verbessert,
obwohl
in
älteren
Systemen
noch
alte
Codepages
verwendet
werden.