Home

Unicodeteken

Een unicodeteken, meestal aangeduid als een Unicode-teken, is een entiteit binnen de Unicode-standaard die een specifieke letter, symbool of pictogram representeert. Het is een abstracte eenheid en hoeft niet direct te worden weergegeven als een specifieke glyph in een font. Elk teken krijgt een uniek codepunt toegewezen, uitgedrukt als U+XXXX, samen met eigenschappen die het karakter beschrijven en bepalen hoe het werkt in tekstverwerking.

Unicode schetst de codepunten en hoe tekens gecodeerd kunnen worden, maar bepaalt niet hoe bytes worden opgeslagen.

Sommige unicodetekens bestaan uit meerdere codepunten. Dit gebeurt bij samengestelde tekens en grapheme-formatie, bijvoorbeeld wanneer een

Unicode verdeelt tekens over blokken en scripts. De meeste algemene tekens bevinden zich in de Basic Multilingual

Toepassingen en uitdagingen: Unicode maakt meertalige tekstverwerking mogelijk en ondersteunt zoeken, sorteren en rendering over diverse

Tekens
kunnen
worden
gecodeerd
in
verschillende
encodings,
waaronder
UTF-8,
UTF-16
en
UTF-32.
UTF-8
is
variabel
en
ASCII-compatibel;
UTF-16
gebruikt
variabele
lengte
met
1
of
2
codepunten
per
karakter,
en
UTF-32
is
een
vaste
4-byte
encoding.
teken
wordt
opgebouwd
uit
een
basisletter
plus
diakriet,
of
bij
emoji‑sequenties
die
bestaan
uit
meerdere
pictogrammen
en
variatiespecifiers.
Ook
variation
selectors
en
zero‑width
joiners
worden
gebruikt
om
de
presentatie
van
tekens
te
sturen
zonder
extra
ruimte
in
te
voeren.
Plane
(BMP,
U+0000
tot
U+FFFF);
tekens
buiten
dit
bereik
behoren
tot
aanvullende
plannen.
In
encodings
zoals
UTF-16
kunnen
sommige
tekens
worden
gepaard
als
surrogate
paren.
Normalisatie
(NFC,
NFD,
en
andere)
beschrijft
hoe
verschillende
representaties
van
hetzelfde
teken
in
tekst
kunnen
worden
gecanonicaliseerd.
talen.
Praktische
problemen
betreffen
compatibiliteit
tussen
systemen,
fontondersteuning,
grapheme‑rekening
en
tekstmeting,
en
het
correct
omgaan
met
samengestelde
tekens
en
emoji-sequenties.