ASRplattformar
ASR-plattformar är mjukvaruplattformar som erbjuder automatiserad taligenkänning (ASR) som en tjänst eller som komponent i ett större system. De tillhandahåller verktyg, modeller och infrastruktur för att omvandla ljud till text i realtid eller batch, ofta med stöd för flera språk och dialekter.
Kärnkomponenter inkluderar akustiska modeller, språkmodeller och avkodare samt signalbehandling. Plattformarna hanterar träningsdata, modelluppdateringar och metoder för
Typ av plattformar inkluderar molnbaserade tjänster (SaaS) från stora leverantörer, lokalt körbara lösningar för on-premises och
Användningsområden omfattar kundtjänst, medieproduktion, tillgänglighet och medicinsk dokumentation samt röstassistenter och kommersiell transkribering. För många tillämpningar
Vanliga prestandamått är ordfel (WER) och realtidfaktor (RTF). Andra aspekter är språkförståelse, domänanpassning, latens och kostnader.
Viktiga överväganden är integritet och dataskydd (t.ex. GDPR), dataägande, säkerhet, skalbarhet och pris. Val av plattform
Marknaden domineras av stora molnaktörer, men det finns även open-source-verktyg som Kaldi och ESPnet samt specialiserade