tekstiklassifikatsioon
Tekstiklassifikatsioon on masinõppe ja tekstitöötluse valdkond, mille eesmärk on määrata teksti kategooriad või märgised ning liigitada dokumendid nende sisule vastavalt. Ülesanne võib olla ühe- või mitmetähline ning leida rakendust nii ärilises kui teaduslikus kontekstis, näiteks teabehalduse, otsingutulemite ja klienditeeninduse automatiseerimisel.
Töötlemisprotsess algab andmete kogumise ja eeltöötlusega: teksti puhastamine, normaliseerimine, tokeniseerimine ja vajadusel stoppsõnade eemaldamine. Seejärel vektoriseeritakse
Tavapärased rakendused hõlmavad e-posti spämmi filtreerimist, sotsiaalmeedia postituste ja uudiste teema- või sentimentiklassifikatsiooni, dokumentide märgistamist ning
Hindamine ja väljakutsed: metrikad hõlmavad täpsust, tundlikkust (recall), F1-skoori ja ROC-AUC-d. Olulised teemad on andmekogu kvaliteet
---