tühikud
Tühikud (tühikmärgid) on teksti eraldamiseks kasutatavad märgid või ruumid, mis mõjutavad loetavust, rütmi ja kujundust. Nad esinevad nii käsitsi kirjutatud kui ka digitaalsetes tekstides ning annavad sõnadele ja muude elementide vahel visuaalse piiri. Digitaalses kontekstis on tühikud märgid, mis võivad olla visuaalselt nähtavad (tavaline ruum) või kuvatud kui kontrollmärgid, mis kontrollivad joont või vormindust.
- tavaline tühik (Unicode U+0020) on kõige levinum ja eraldab sõnu.
- mitte-lõikuv tühik (U+00A0) hoiab sõnad koos, vältides lõike katkemist reavahetuses.
- en space (U+2002) ja em space (U+2003) annavad vastavalt väiksema või suurema vahemaa.
- kitsas tühik (thin space, U+2009) ja karvane tühik (hair space, U+200A) pakuvad peenemaid eriulatuslikke vahemaid.
- ideograafiline ruum (U+3000) kasutusel peamiselt jaapani ja kiina kirjatüüpides.
- null-tühik (zero-width space, U+200B) loob otsustamata pausi, millel puudub visuaalne laius.
Tühikud määravad sõnadevahelise piiri ning kujundavad teksti rütmi. Enamikus keeltes kasutatakse sõnade vahel ühte tühikut; mitten-lõikuvat
Whitespace’i käsitlemine on oluline tekstianalüüsis: tühikuid võidakse eemaldada, normaliseerida või tokeniseerida sõltuvalt kontekstist. Unicode kirjeldab laia
Vaadeldud mõiste hõlmab nii keelelist kui ka tehnilist külge ning on keskne märksõna nii korrastamisel kui