taalprobabiliteiten
Taalprobabiliteiten zijn probabilistische cijfers die aangeven hoe waarschijnlijk het is dat een stuk tekst in een bepaalde taal geschreven is. In de natuurlijke taalverwerking worden ze gebruikt om talen te identificeren, te modelleren en te vergelijken. Ze kunnen verwijzen naar de kans dat een tekst in taal L is (P(L|tekst)) of naar de kans om tekens en woorden te produceren in die taal (P(tekst|L) of P(w|L)).
Een veelgebruikt raamwerk voor taalprobabiliteiten is Bayesiaanse taalidentificatie: P(L|tekst) ∝ P(tekst|L) P(L). P(L) is de prior, afgeleid
De parameters P(L) en P(w|L) worden meestal geschat uit gelabelde corpora. Bij beperkte data worden smoothing
Toepassingen en uitdagingen: taalprobabiliteiten worden ingezet bij taalidentificatie in meertalige documenten, pre-processing voor meertalige systemen, en
Relatief relevantes concepten zijn onder meer taalmodel, perplexity en Bayes' regel, evenals toepassingen zoals n-grammodellen en