Home

tekenencoderingen

Een tekenencodering, of karakterencodering, is een systeem voor het omzetten van tekens uit een schrift naar bytes en omgekeerd, zodat tekst kan worden opgeslagen, verwerkt en uitgewisseld. Encoderingen bepalen welk teken kan worden gebruikt en hoe elk teken wordt gerepresenteerd als één of meerdere bytes. Het proces van coderen blijft tekst naar bytes brengen; decoderen doet het tegenovergestelde.

Unicode is de hedendaagse standaard voor het globale tekenrepertoire en probeert vrijwel alle gebruikte tekens te

Naast Unicode bestaan er oudere en nog veel voorkomende encoderingen zoals ASCII (7-bit), ISO-8859-1 (Latin-1), Windows-1252

Het kiezen van de juiste encodering is essentieel voor interoperabiliteit en gegevensintegriteit; verkeerd geïnterpreteerde bytes leiden

omvatten.
Hoewel
Unicode
een
universeel
tekenrepertoire
biedt,
kunnen
verschillende
encoderingen
worden
gebruikt
om
Unicode-codepunten
op
te
slaan.
De
belangrijkste
encoderingen
zijn
UTF-8,
UTF-16
en
UTF-32.
UTF-8
is
een
variabele
lengte-encodering
(1
tot
4
bytes
per
teken)
en
is
compatibel
met
ASCII,
omdat
codepunten
0-127
dezelfde
byte-representatie
hebben
als
in
ASCII.
UTF-16
en
UTF-32
gebruiken
vaste
lengtes
en
kennen
endianness,
wat
het
mogelijk
maakt
om
een
Byte
Order
Mark
(BOM)
toe
te
voegen
om
de
volgorde
van
de
bytes
aan
te
geven.
en
ISO-8859-x-reeksen.
Deze
worden
nog
aangetroffen
in
oudere
bestanden
of
in
systemen
waar
Unicode
nog
niet
volledig
is
doorgevoerd.
vaak
tot
onleesbare
of
vervormde
tekst,
bekend
als
mojibake.
In
web-
en
softwareontwikkeling
wordt
aanbevolen
om
expliciet
de
gebruikte
encodering
aan
te
geven,
bijvoorbeeld
via
HTTP-headers
of
in
HTML
met
charset=UTF-8.
Detectie
van
encodering
kan
lastig
zijn
en
vindt
soms
plaats
op
basis
van
BOM,
bestandtype
of
heuristiek.