karakterkodeeringud - Infinite Lexicon - Infinite Lexicon

karakterkodeeringud

Karakterkodning refererer til systemer, der beskriver, hvordan tegn fra et tegnsæt kortlægges til en sekvens af bytes, så tekst kan gemmes og sendes mellem computere. Et tegnsæt bestemmer de tegn, der kan bruges, og deres identifikation i form af kodepunkter, mens en kodning angiver, hvordan disse kodepunkter omsættes til bytes. Unicode er et universelt tegnsæt og en standard, der kan rumme næsten alle menneskeskabte tegn. Før Unicode fandt man forskellige ældre kodninger, for eksempel ASCII (7-bit), som kun rummer de mest basale engelske tegn, og ISO/IEC 8859-1 (Latin-1) med videre varianter, der tilgodeser europæiske sprog. Multibyte-kodninger som UTF-8, UTF-16 og UTF-32 kan repræsentere store tegnmængder; UTF-8 har variabel længde og bruger 1 byte for ASCII og op til 4 bytes for andre tegn. UTF-16 findes i little endian og big endian og kan bruge en byte-order mark (BOM) i begyndelsen af en fil.

I praksis bruges kodninger ved lagring af tekstfiler, i netværk og i websider. Tekst skal dekodes korrekt

Råd: for nye projekter anbefales brug af Unicode og især UTF-8, da det er bredt understøttet, bagudkompatibelt

i

i

charset="UTF-8"

i

i

transcoding-problemer.