Home

kodpunkter

Kodpunkt (code point) är den numeriska identifieraren som Unicode tilldelar varje tecken. Det är en abstrakt enhet som existerar oberoende av hur tecknet renderas, vilken font som används eller hur texten kodas. Kodpunkter används för att beskriva vilka tecken som finns i ett teckensystem, från bokstäver och siffror till symboler och emoji.

Inom Unicode beskrivas kodpunkter med notationen U+ följt av hexadecimala siffror, till exempel U+0041 för bokstaven

Det är viktigt att skilja mellan kodpunkter och tecken som visas. I text kan flera kodpunkter bilda

För lagring och överföring används olika teckenkodningar. UTF-8 kodar varje kodpunkt i mellan en och fyra bytes,

I praktiken används kodpunkter för referens i standarder och programmering. Hantering av text innebär ofta att

A
och
U+1F600
för
det
grimaserande
ansiktet.
Hela
kodpunktsrymden
sträcker
sig
från
U+0000
till
U+10FFFF.
Vissa
punkter
är
reserverade
eller
ännu
inte
tilldelade
tecken.
Vissa
områden,
som
U+D800
till
U+DFFF,
används
som
surrogatpar
i
UTF-16
och
får
inte
förekomma
som
fristående
kodpunkter.
en
synlig
enhet,
till
exempel
ett
tecken
med
diakritiska
tecken
som
kombineras
eller
ett
emoji-tecken
som
består
av
flera
kodpunkter
i
följd.
Sådana
sekvenser
kallas
ofta
grapheme
clusters
och
påverkar
hur
text
mäts
och
renderas.
medan
UTF-16
använder
16-bitarsenheter
och
för
punkter
över
U+FFFF
krävs
surrogatpar.
Kodpunkter
i
intervallet
U+D800–U+DFFF
är
reserverade
för
surrogater
och
används
inte
som
fristående
kodpunkter.
skilja
mellan
kodpunkter,
deras
kombinationer
och
hur
normalisering
påverkar
saknade
eller
förändrade
sekvenser.