NichtASCIIZeichen
NichtASCIIZeichen bezeichnen Zeichen, die nicht dem ASCII-Zeichensatz entsprechen. ASCII ist ein 7-Bit-Zeichensatz, der 128 Codepunkte umfasst: Steuerzeichen 0 bis 31 und 127 sowie die druckbaren Zeichen 32 bis 126. Zeichen außerhalb dieses Bereichs gelten als NichtASCIIZeichen. Dazu gehören Buchstaben mit Akzenten wie é oder ö, kyrillische, griechische oder chinesische Schriftzeichen, mathematische Symbole, Emoji und viele weitere Zeichen.
Zur universellen Repräsentation wurden Unicode und darauf basierende Codierungen entwickelt. Unicode definiert einen global konsistenten Satz
Praktisch bedeutet dies, dass Texte, die NichtASCIIZeichen enthalten, je nach System, Encoding-Einstellungen und Schriftarten unterschiedlich gespeichert
Beispiele für NichtASCIIZeichen umfassen Buchstaben wie ä, ö, ü, å sowie Skripte wie Русский, 汉字 und Emoji. Der