Home

onderwerpenmaat

Onderwerpenmaat is een maatstaf in de tekstmining die bedoeld is om de breedte van onderwerpen in een tekstverzameling of in een enkel document te kwantificeren. Hij geeft aan hoeveel verschillende onderwerpen voorkomen en hoe gelijkmatig die onderwerpen verdeeld zijn over de tekst.

De term is samengesteld uit de Nederlandse woorden onderwerpen en maat (of meeteenheid). In praktijk wordt de

Er zijn meerdere manier om de onderwerpenmaat te berekenen. Een eenvoudige methode telt het aantal onderwerpen

Toepassingen omvatten het evalueren van de diversiteit van thema’s binnen nieuwsberichtencorpora, het controleren van de breedte

Zie ook: topic modelling, entropie, effectieve aantal onderwerpen, perplexiteit.

onderwerpenmaat
vaak
afgeleid
uit
een
onderwerpmodel
zoals
Latente
Semantische
Analyse
(LSA),
Non-Negative
Matrix
Factorization
(NMF)
of
Latente
Dirichlet
Allocatie
(LDA).
Uit
zo’n
model
krijgen
we
een
verdeling
p_i
van
waarschijnlijkheden
per
onderwerp
i,
met
i
van
1
tot
K,
waarbij
K
het
aantal
topics
is.
met
een
aandeel
p_i
groter
dan
een
gekozen
drempel
t
(threshold-based
maat).
Een
andere
benadering
gebruikt
de
entropie
H
=
-
sum_i
p_i
log
p_i,
die
hoog
is
bij
een
brede
en
ongecontroleerde
verdeling
en
laag
bij
een
concentratie
op
enkele
onderwerpen.
Een
populaire
optie
is
de
praktische
“effectieve
aantal
onderwerpen”
EN
=
1
/
sum_i
p_i^2,
dat
een
conceptueel
equivalent
van
de
diversiteit
geeft
en
hetzelfde
verband
legt
tussen
spreiding
en
maat.
van
onderwerpen
in
samenvattingen,
of
het
verbeteren
van
zoek-
en
aanbevelingssystemen
door
tekst
met
een
geschikte
mix
van
onderwerpen
te
identificeren.
Nadelen
zijn
afhankelijkheid
van
het
gekozen
model,
het
aantal
topics
en
de
drempels
bij
threshold-based
berekeningen;
vergelijkbaarheid
tussen
modellen
vereist
zorgvuldige
afstemming.