Zeichenlängen
Zeichenlänge bezeichnet die Anzahl der Zeichen in einer Zeichenkette. Der Begriff ist nicht eindeutig, weil Zeichen unterschiedlich gezählt werden können. Grundsätzlich unterscheidet man zwischen der Länge nach Unicode-Codepunkten (die einzelnen, normierten Einheiten der Unicode-Codierung) und der Länge nach Grapheme, also grafischen Einheiten, die vom Benutzer als ein Zeichen wahrgenommen werden können. Ein Grapheme kann aus mehreren Codepunkten bestehen, etwa ein Buchstabe mit diakritischem Zeichen oder ein Emoji, das aus mehreren Teilzeichen zusammengesetzt ist.
Herausforderungen ergeben sich durch die Vielfalt von Codierungen und Darstellungen. Bei Normalisierungsversionen (zum Beispiel NFC/NFD) kann
Technisch betrachtet speichern Textsysteme Zeichen in unterschiedlichen Formen. UTF-8 verwendet variabel viele Bytes pro Codepunkt (1–4
Praktisch bedeuten diese Unterschiede, dass bei Validierung, Festlegung von Längenlimits für Felder, UI-Trunkierung oder Speicherplanung zwischen