Home

karakterfoutwaarde

Karakterfoutwaarde, vaak afgekort als CER (Character Error Rate), is een maatstaf voor de nauwkeurigheid van een getranscribeerde tekst ten opzichte van een referentietekst. Het geeft aan welk aandeel karakters fout zijn geclassificeerd en wordt gebruikt om de kwaliteit van systemen zoals optische-tekstenherkenning (OCR), spraak-naar-tekst (ASR) en handschriftherkenning te evalueren.

De CER wordt meestal berekend als (S + D + I) / N, waarbij S het aantal substitutions (vervangingen),

CER is een karakterlaag-evaluatiemaatstaf en verschilt van woordfoutwaarde (WER) doordat het op tekens in plaats van

Toepassingen omvatten kwaliteitsbeoordeling van OCR-systemen, transcriptieprojecten, ondertiteling en linguïstisch onderzoek. Een lagere CER wijst op een

D
het
aantal
deletions
(verwijderingen)
en
I
het
aantal
insertions
(toevoegingen)
zijn,
en
N
het
totale
aantal
tekens
in
de
referentie.
In
de
praktijk
wordt
vaak
de
Levenshtein-afstand
gebruikt
om
deze
foutlenzen
te
bepalen
en
vervolgens
genormaliseerd
door
N.
De
waarde
wordt
doorgaans
uitgedrukt
als
een
verhouding
of
percentage.
woorden
kijkt.
Het
is
gevoelig
voor
normalisatiekeuzes,
zoals
hoofdlettergebruik
en
diakritische
tekens.
Om
vergelijkbare
resultaten
te
krijgen,
passen
onderzoekers
vaak
voorbewerking
toe
zoals
lowercasing,
verwijdering
van
interpunctie
of
consistentie
in
spelling.
hogere
nauwkeurigheid;
waarden
dichter
bij
0%
geven
aan
dat
de
getranscribeerde
tekst
vrijwel
foutloos
overeenkomt
met
de
referentie.