talbearbetning
Talbearbetning är ett område inom datorvetenskap och signalbehandling som behandlar tal som ljudsignal och syftar till att analysera, tolka och generera tal. Vanliga delområden är taligenkänning (ASR), där tal omvandlas till text, och text-till-tal (TTS), där text omvandlas till tal. Andra uppgifter inkluderar speaker recognition (identifiering eller verifiering av talare), röstaktivitetdetektion och talkvalitetsförbättring. Inom området används även talförståelse, diarization och röstförändringar såsom voice conversion.
Tekniken bygger ofta på en pipeline som inkluderar förbearbetning, funktionsutvinning (t.ex. MFCC), akustiska modeller, språkliga modeller
Användningar av talbearbetning inkluderar transkription av möten och föreläsningar, röstassistenter och interaktiva tjänster, stöd för personer
Utmaningar är bland annat variation i röster, dialekter, bakgrundsljud och begränsad tillgång till stora, välannoterade datasätt.