Unicodehantering
Unicodehantering avser metoder och bibliotek för att representera, bearbeta och jämföra text enligt Unicode‑standarden. Varje tecken tilldelas en unik kodpunkt, till exempel U+0041 för "A" och U+00E4 för "ä". Text lagras ofta som sekvenser av kodpunkter där kombinerade tecken kan uppträda som enhet.
Unicode stöder flera teckenkodningar, där UTF‑8 är mest spridd på webben. UTF‑8 är variabelt längd och bakåtkompatibel
Normalisering syftar till att göra kanoniskt lika texter identiska, trots olika kombinationer av tecken och diakritiska
Grapheme-kluster refererar till vad användare uppfattar som ett tecken: bastecken med kombinerande tecken, eller emoji med
Praktiska råd: föredra UTF‑8 som standard där det är möjligt; hantera decoding fel på ett kontrollerat sätt;