témamodellezés
A témamodellezés olyan statisztikai megközelítés, amely szöveges adatokban rejtett, egymással összefüggő témák feltárását célozza. A dokumentumok gyakran több témát hordoznak, ezek pedig témák eloszlásai a szövegben. A cél, hogy a nagy szövegkollekciót kisméretű reprezentációkká redukáljuk: minden dokumentumhoz egy témákból álló keverék tartozik, minden téma pedig szavak felbukkanási valószínűségeinek halmaza.
A legismertebb módszer a Latens Dirichlet-eloszlású témamodellezés (LDA). A szemlélet szerint a dokumentumok egy vagy több
További fontos variánsok közé tartozik a dinamikus témamodellezés (DTM), amely időben változó témákat ír le, valamint
A feldolgozás előtt általában előzetes lépések történnek: tokenizáció, stopword-eltávolítás, származtatás (lemma vagy stemming), és gyakran a
Használati területek közé tartozik a dokumentumok és hírek keresése, információ-visszakeresés, tartalom-összefoglalás, piackutatás és társadalomtudományi kutatások. Előnyei