Home

Unicodekodningarna

Unicodekodningarna är metoderna som används för att representera Unicode-kodpunkter som sekvenser av bytes så att text kan lagras och överföras mellan olika system. De mest använda är UTF-8, UTF-16 och UTF-32. Dessa kodningar gör det möjligt att entydigt koda och avkoda varje tecken när rätt tolkning används.

UTF-8 är en variabellängdskodning där ett tecken består av mellan en och fyra bytes. Den är bakåtkompatibel

UTF-16 använder tvåbytesenheter och kan även använda fyra bytes för tecken utanför BMP via surrogater. Den

UTF-32 är en enkel, fast längds-kodning där varje tecken representeras av fyra bytes. Den är lätt att

Historiskt finns det även mindre använda eller föråldrade kodningar som UTF-7 och UTF-EBCDIC. Den nuvarande rekommendationen

med
ASCII
och
dominerar
på
webben
och
i
moderna
operativsystem.
Den
är
självsynkroniserande
och
kräver
inga
fasta
teckenordningar,
vilket
underlättar
textlagring
och
kommunikation
över
plattformar.
används
ofta
i
Windows-miljöer
och
i
många
programmeringsspråk.
Endianness
är
relevant
och
hanteras
ofta
med
en
BOM
(Byte
Order
Mark).
bearbeta
men
minneskrävande
och
används
därför
sällan
för
textlagring,
utan
mer
som
intern
representationsform
i
vissa
gränssnitt.
är
oftast
att
välja
UTF-8
eller
UTF-16
beroende
på
miljö
och
krav
på
kompatibilitet,
där
UTF-8
är
dominerande
på
internet.