Home

teckenkodningssystem

Teckenkodningssystem, eller teckenkodningar, är metoder för att representera tecken i datorer genom att mappa varje tecken till en eller flera bytes. De defined en teckenuppsättning och hur varje tecken serialiseras som binär data för lagring, bearbetning och kommunikation.

Historiskt användes enkla 7-bit ASCII samt senare olika kodningar som ISO 8859-1 (Latin-1) och andra så kallade

Nyckelbegrepp inom teckenkodningssystem inkluderar code points (teckenets universella nummer), encoding (hur code points omsätts i bytes),

Vanliga teckenkodningssystem är ASCII, UTF-8, UTF-16 och UTF-32, samt äldre kodningar som ISO-8859-1 och Windows-1252, liksom

Praktiska överväganden inkluderar att undvika blandningar av encodings, använda standardbibliotek för konvertering och att hantera fel

kodsidor.
Dessa
var
begränsade
och
kunde
inte
representera
alla
språk
och
tecken.
Med
ökade
krav
på
global
användning
utvecklades
Unicode
tillsammans
med
ISO/IEC
10646
för
att
skapa
ett
universellt
teckenrepertoar.
Praktiskt
används
teckenkodningar
som
UTF-8,
UTF-16
och
UTF-32;
UTF-8
har
blivit
dominerande
på
webben
tack
vare
bakåtkompatibilitet
med
ASCII
och
effektivitet
för
latinbaserade
texter.
samt
frågor
som
byte
order
och
endianess.
Vissa
encodings
är
variabla
i
längd,
vilket
innebär
att
ett
tecken
kan
kräva
olika
antal
bytes
och
därmed
kräva
särskild
tolkningslogik
men
samtidigt
ger
större
flexibilitet
och
bredare
språkstöd.
flera
region-
eller
språkminnesspecifika
kodningar
som
Shift
JIS
eller
GB2312.
Valet
påverkar
hur
text
visas,
söks
och
lagras.
För
nya
projekt
är
UTF-8
i
regel
rekommenderat,
tillsammans
med
tydlig
deklaration
av
teckenkodning
i
filer
och
kommunikation.
när
tecken
saknas
eller
känns
igen.