Zeichensätzen

Zeichensätze (englisch character sets) sind Sammlungen von Zeichen, die in einem Computersystem verwendet werden können. Ein Zeichensatz beschreibt die verfügbare Zeichenmenge, während eine Zeichencodierung festlegt, wie jedem Zeichen eine Byte- bzw. Bytefolge zugeordnet wird. So ist der Zeichensatz die Welt der Zeichen; die Codierung die Brücke, wie diese Zeichen als Zahlenwerte gespeichert oder übertragen werden.

Historisch gab es verschiedene 7-Bit- und 8-Bit-Encodings. ASCII umfasst 128 Zeichen; ISO/IEC 8859-1 (Latin-1) erweitert 8-Bit-Zeichen.

Unicode wurde entwickelt, um alle Schriftzeichen der Welt abzubilden. Unicode selbst ist eine Zeichentabelle mit Codepunkten

Bei der Softwareentwicklung ist die Wahl des Zeichensatzes/Encodings entscheidend für Interoperabilität, Speichernutzung und Internationalisierung. Heutzutage ist

Zusammenfassend bilden Zeichensätze die Zeichenwelt, während Codierungen die Repräsentation in Bytes bestimmen. Die Vereinheitlichung durch Unicode/UTF-8

unterschiedliche

regionalspezifisch

gebräuchlichen

4

16-Bit-Schnitte,

Byte-Reihenfolge-Markierung

unterschiedlicher

Unicode-Zeichen

Vergleichbarkeit

sicherzustellen.

Kompatibilität