tekstimuunnoksia
Tekstimuunnoksia tarkoittaa erilaisia prosesseja, joissa teksti muutetaan alkuperäisestä muodosta toiseen. Niillä voidaan standardoida, puhdistaa, muokata tai analysoida tekstiä tietojenkäsittelyssä, luonnollisen kielen käsittelyssä sekä tiedonvaihdossa. Tekstimuunnokset ovat yleisiä sekä ohjelmistoissa että käsikirjoitetuissa työnkuluissa.
Tyypillisiä tekstimuunnoksia ovat:
- Kirjainten koon muunnokset: isot ja pienet kirjaimet sekä casefolding, jolla merkkijonoa valmistellaan vertailua varten riippumatta alkuperäisestä
- Diakriittien käsittely: merkkien aksenttien poistaminen tai translitterointi, esimerkiksi äitiä ja äidinkieltä käsittelevissä prosesseissa.
- Transliterointi: merkkien vaihtaminen kirjoitusjärjestelmästä toiseen, kuten kyrillisen tai kreikkalaisen kirjoitusasun muuttaminen latinalaiseksi.
- Unicode-normalisointi: merkkijonojen hienostunut yhdistäminen tai hajottaminen (NFC, NFD, NFKC, NFKD), jotta samat merkit esitetään johdonmukaisesti.
- Kielitieteelliset muokkaukset: stemming ja lemmatisaatio, joilla sanoja muokataan perusmuotoon analysointia varten.
- Tekstin puhdistus ja muokkaukset: sopimus- ja sensurointitoimenpiteet, poiminta tai korvaaminen sekä tietosuoja- tai turvallisuustarkoitukset.
Käyttökohteita ovat hakukoneet ja tiedonhaku, datan puhdistus ja standardointi sekä kielianalyysi ja koneoppimismallit. Tekstimuunnoksilla voi olla