beszédaktivitásészlelés
Beszédaktivitásészlelés (SAD) olyan jel- vagy audiófeldolgozási feladat, amelynek célja, hogy az audio jelben meghatározzuk, hol van beszéd és hol nincs (nem beszéd). A feladat front-endként szolgál sok beszédfeldolgozási rendszer számára, például beszédfelismerés előtt vagy hangalapú azonosításkor, és segít a feldolgozási költségek csökkentésében, a zajcsökkentésben és a késleltetés minimalizálásában.
Módszertani megközelítések: kezdetben energiaalapú és ZCR-alapú jellemzőkkel dolgoztak, klasszikus modelljeik GMM vagy HMM alapúak voltak. Később
Jellemzők és értékelés: SAD jellemzői közé tartozik a log-energy, ZCR, MFCC vagy spektrális reprezentációk, zajcsökkentett/robosztus jellemzők
Alkalmazások és kihívások: alkalmazások közé tartozik a telekommunikáció, automatikus feliratkészítés és beszédfelismerés előfeldolgozása, zajcsökkentés és hang-diarizáció.