onderwerpenmaat

Onderwerpenmaat is een maatstaf in de tekstmining die bedoeld is om de breedte van onderwerpen in een tekstverzameling of in een enkel document te kwantificeren. Hij geeft aan hoeveel verschillende onderwerpen voorkomen en hoe gelijkmatig die onderwerpen verdeeld zijn over de tekst.

De term is samengesteld uit de Nederlandse woorden onderwerpen en maat (of meeteenheid). In praktijk wordt de

Er zijn meerdere manier om de onderwerpenmaat te berekenen. Een eenvoudige methode telt het aantal onderwerpen

Toepassingen omvatten het evalueren van de diversiteit van thema’s binnen nieuwsberichtencorpora, het controleren van de breedte

Zie ook: topic modelling, entropie, effectieve aantal onderwerpen, perplexiteit.

onderwerpenmaat

waarschijnlijkheden

i

1

K

t

(threshold-based

H

=

-

ongecontroleerde

=

1

/

samenvattingen,

aanbevelingssystemen

afhankelijkheid

threshold-based

vergelijkbaarheid