teckenrepresentation
Teckenrepresentation är beteckningen på hur tecken i ett skriftsystem kartläggs till de lagrings- och överföringsformat som används i datorer. Den beskriver hur abstrakta symboler i ett alfabet översätts till konkreta byten och bitmönster, hur program tolkar dessa och hur olika system kan tolka samma tecken på olika sätt.
Det dominerande ramverket inom moderna datorer är Unicode, som tilldelar varje tecken en unik kodpunktnummer. Exempel:
Metoderna skiljer sig också i hur de representerar ordningen av bytes (endianness). Inom Unicode används i praktiken
Grapheme-kluster och normalisering är centrala i teckenrepresentation. Ett visuellt tecken kan bestå av flera kodpunkter (t.ex.
Utmaningar inkluderar felaktig avkodning (mojibake), konvertering mellan encodings, och bevarande av data då olika system använder
Standards: Unicode Consortium och ISO/IEC 10646 reglerar tecken och kodpunkter; UTF-8, UTF-16 och UTF-32 specificeras inom