UTF8Sequenzen
UTF8Sequenzen bezeichnen die Bytefolgen, mit denen Unicode-Zeichen im UTF-8-Verfahren kodiert werden. UTF-8 ist eine rückwärts kompatible, variable Längenkodierung, die ASCII-Ebene direkt abbildet und sich dadurch gut für Textdaten in Netzwerken, Dateisystemen und Programmierumgebungen eignet.
Die Kodierung verwendet 1 bis 4 Bytes pro Zeichen. Einzeichige Zeichen U+0000 bis U+007F werden als einzelnes
Zur Gültigkeit gehören Regeln gegen overlong encodings (eine Codierung, die einen Codepunkt in zu vielen Bytes
Praxisrelevanz: UTF-8 wird in den meisten modernen Textformaten und Protokollen bevorzugt (Web, JSON, XML, E-Mail). Decodierung
Beispiele: U+0041 → 41; U+20AC (€) → E2 82 AC; U+1F600 (Grinsemotiv) → F0 9F 98 80. UTF-8-Sequenzen ermöglichen so