Home

prekomponowane

Prekomponowane znaki (precomposed characters) to symbole w standardzie Unicode, które zapisują litery z diakrytykami jako pojedynczy punkt kodowy. Przykłady to znak 'ą' U+0105, znak 'é' U+00E9 oraz znak 'ó' U+00F3. W przeciwieństwie do nich istnieją sekwencje znaków tworzone z litery podstawowej i łączących znaków diakrytycznych, na przykład 'a' U+0061 z U+0301 (diakrytyk ostrości).

W praktyce różnice między prekomponowanymi a złożonymi formami obejmują sposób zapisywania tych samych znaków. Unicode dopuszcza

Prekomponowane znaki ułatwiają renderowanie i indeksowanie, oszczędzając miejsce w niektórych czcionkach i systemach. Jednak nie wszystkie

Przykłady: 'é' U+00E9 vs 'e' U+0065 z U+0301; 'ñ' U+00F1 vs 'n' U+006E z U+0303. Wersje prekomponowane

Więcej informacji znajduje się w dokumentacji Unicode dotyczącej normalizacji oraz pojęć canonical composition i combining marks.

formy
NFC
(zazwyczaj
łączące)
i
NFD
(dekomponujące).
Formy
NFC
zazwyczaj
przekształają
znak
do
postaci
prekomponowanej,
jeśli
to
możliwe;
NFD
rozbija
ją
na
litery
i
łączące
diakrytyki.
Dzięki
temu
identyczne
ciągi
znaków
mogą
mieć
różne
reprezentacje,
ale
po
normalizacji
stają
się
równoważne.
diakrytyki
mają
odpowiadające
prekomponowane
postacie
w
Unicode;
w
niektórych
językach
(zwłaszcza
w
odmianach
alfabetu
łacińskiego)
używa
się
kombinacji
diakrytyków,
które
nie
są
prekomponowane.
W
praktyce
praca
z
tekstem
często
polega
na
normalizacji
do
NFC
(lub
NFKC)
w
celu
zapewnienia
spójności
porównań
i
wyszukiwania.
są
powszechnie
używane
w
edytorach
tekstu
i
bazach
danych;
niekiedy
konieczne
jest
konwertowanie
między
formami
podczas
migracji
danych
lub
implementacji
wyszukiwania
pełnotekstowego.