Home

spraaksynthese

Spraaksynthese is het proces waarbij computers gesproken taal genereren uit tekst of andere input. Het doel is om op een duidelijke, vloeiende en contextueel passende wijze communicatie mogelijk te maken zonder menselijke spraakopnames. Moderne systemen combineren technieken uit de natuurlijke taalverwerking, fonetische modellering en Akoestische signaalverwerking om natuurlijke geluidkwaliteit en gewenste expressie te bereiken.

Belangrijke onderdelen zijn tekstnormalisatie en linguïstische planning, die de input omzet in fonetische en prosodische informatie;

Historisch gezien evolueerde spraaksynthese van mechanische en klankgewijze systemen naar geavanceerde neurale modellen. Neurale spraaksynthese kan

Ethiek en beleid raken spraaksynthese op gebieden zoals authenticiteit, privacy en misbruik als stemspoofing of deepfakes.

een
akoestisch
model
dat
deze
informatie
omzet
in
een
spectrogram
of
audiodata;
en
een
vocoder
of
waveform-generator
die
het
spectrogram
omzet
in
hoorbaar
geluid.
Er
bestaan
verschillende
benaderingen,
waaronder
concatenatieve
spraaksynthese
(verzamelde
klanken
uit
opnames),
formant-synthese
(gebaseerd
op
akoestische
kenmerken
van
stemmen)
en
neuraal
gebaseerde
spraaksynthese,
waarbij
neurale
netwerken
direct
audio
of
spectrogrammen
genereren.
natuurlijke
prosodie,
intonatie
en
expressie
beter
weergeven,
maar
vereist
grote
datasets
en
rekenkracht.
Toepassingen
zijn
onder
meer
toegankelijkheidsdiensten,
virtuele
assistenten,
navigatiesystemen
en
audiovisuele
media.
Evaluatie
gebeurt
onder
andere
met
Mean
Opinion
Score
en
andere
luistertests,
gericht
op
intelligibility
en
naturalness.
Zie
ook:
neurale
spraaksynthese,
vocoder,
tekst-naar-spraak.