taalprobabiliteiten - Infinite Lexicon - Infinite Lexicon

taalprobabiliteiten

Taalprobabiliteiten zijn probabilistische cijfers die aangeven hoe waarschijnlijk het is dat een stuk tekst in een bepaalde taal geschreven is. In de natuurlijke taalverwerking worden ze gebruikt om talen te identificeren, te modelleren en te vergelijken. Ze kunnen verwijzen naar de kans dat een tekst in taal L is (P(L|tekst)) of naar de kans om tekens en woorden te produceren in die taal (P(tekst|L) of P(w|L)).

Een veelgebruikt raamwerk voor taalprobabiliteiten is Bayesiaanse taalidentificatie: P(L|tekst) ∝ P(tekst|L) P(L). P(L) is de prior, afgeleid

De parameters P(L) en P(w|L) worden meestal geschat uit gelabelde corpora. Bij beperkte data worden smoothing

Toepassingen en uitdagingen: taalprobabiliteiten worden ingezet bij taalidentificatie in meertalige documenten, pre-processing voor meertalige systemen, en

Relatief relevantes concepten zijn onder meer taalmodel, perplexity en Bayes' regel, evenals toepassingen zoals n-grammodellen en

probabilistisch

≈

P(wi|wi-1,...,wi-n+1,L).

woordcombinaties

ongestructureerde

semi-gestructureerde

topic-modellen.

spraaktechnologie.

code-switching,

ongebalanceerde

domeinspecifieke

kansenverdeling

log-likelihood-estimatie.