röstteknologi
Röstteknologi är ett område inom artificiell intelligens och människa-dator-interaktion som fokuserar på hur maskiner uppfattar, tolkar och producerar mänsklig röst. Det omfattar taligenkänning (ASR), som översätter tal till text; text-till-tal (TTS), som producerar tal från text; samt röstbiometri och röstbaserad autentisering. Andra centrala delar är förståelse av naturligt språk (NLU/NLP) och dialoghantering, vilka möjliggör konversationer med datorer eller virtuella assistenter. Röstteknologi används i smartphones och smarta högtalare, i bilindustrin, kundtjänstsystem och tillgänglighetsverktyg.
Historik: Tidiga försök inom mekaniska och statistikbaserade metoder ersattes sedan av neurala nätverk. Under 1980–1990-talet användes
Metoder och teknik: Vanliga metoder inkluderar neural nätverk för ASR och TTS, NLU/NLP för språkförståelse och
Utmaningar och etiska överväganden: Utmaningar är språklig mångfald, bullerrobusthet, integritet och säkerhet, bias i data samt
Framtid: Trender inkluderar on-device bearbetning, anpassning utan kontinuerlig datainsamling, förbättrad tillgänglighet och integrerade multimodala system.