Home

Codepunkte

Codepunkte sind die numerischen Repräsentationen einzelner Zeichen im Unicode-Zeichensatz. Sie dienen als abstrakte Identifikatoren, unabhängig von der konkreten Speicherung oder Darstellung. Ein Codepunkt wird üblicherweise in der Form U+hhhh geschrieben, wobei hhhh eine hexadezimale Zahl ist. Mehrere Codepunkte können zusammen ein visuell zusammengesetztes Zeichen bilden, etwa bei Akzentkombinationen oder Emoji-Sequenzen.

Der gültige Bereich reicht von U+0000 bis U+10FFFF. Teile dieses Bereichs sind reserviert oder unzugewiesen. Die

Zur Speicherung von Codepunkten werden Encodings verwendet, insbesondere UTF-8, UTF-16 und UTF-32. Diese Codierungen unterscheiden sich

Codepunkte lassen sich in Programmiersprachen oft durch Escape-Sequenzen darstellen, z. B. U+0041 für das Zeichen A

Für Textverarbeitung und Verarbeitungssysteme sind Codepunkte grundlegend: sie ermöglichen Identifikation, Sortierung, Normalisierung (NFC/NFD) und korrektes Rendering

Unterbereiche
U+D800
bis
U+DFFF
dienen
als
Surrogate
und
werden
ausschließlich
zum
Encoding
in
UTF-16
verwendet;
sie
dürfen
nicht
als
eigenständige
Zeichen
auftreten.
Nichtzugewiesene
oder
nicht-zugeordnete
Codepunkte
umfassen
außerdem
U+D000
bis
U+DFFF
in
manchen
Kontexten
und
alle
Codepunkte,
die
mit
FFFE
oder
FFFF
enden;
diese
gelten
als
Nicht-Charaktere
oder
Reserved.
in
der
Byte-Darstellung,
nicht
im
zugrundeliegenden
Codepunkt.
In
der
Praxis
bedeutet
dies,
dass
ein
Codepunkt
je
nach
Encoding
eine
unterschiedliche
Anzahl
von
Bytes
benötigt.
oder
\u0041
bzw.
\U00000041
in
vielen
Sprachen.
In
HTML/XML
können
Zeichen
auch
über
numerische
Referenzen
codiert
werden,
etwa
😀
für
das
Grinsee-Face.
über
verschiedene
Schriftarten
hinweg.