Unicodeteken

Een unicodeteken, meestal aangeduid als een Unicode-teken, is een entiteit binnen de Unicode-standaard die een specifieke letter, symbool of pictogram representeert. Het is een abstracte eenheid en hoeft niet direct te worden weergegeven als een specifieke glyph in een font. Elk teken krijgt een uniek codepunt toegewezen, uitgedrukt als U+XXXX, samen met eigenschappen die het karakter beschrijven en bepalen hoe het werkt in tekstverwerking.

Unicode schetst de codepunten en hoe tekens gecodeerd kunnen worden, maar bepaalt niet hoe bytes worden opgeslagen.

Sommige unicodetekens bestaan uit meerdere codepunten. Dit gebeurt bij samengestelde tekens en grapheme-formatie, bijvoorbeeld wanneer een

Unicode verdeelt tekens over blokken en scripts. De meeste algemene tekens bevinden zich in de Basic Multilingual

Toepassingen en uitdagingen: Unicode maakt meertalige tekstverwerking mogelijk en ondersteunt zoeken, sorteren en rendering over diverse

ASCII-compatibel;

1

2

emoji‑sequenties

variatiespecifiers.

gecanonicaliseerd.

compatibiliteit

fontondersteuning,

grapheme‑rekening

emoji-sequenties.