többmódusú
Többmódusú, vagy multimodális, kifejezést olyan rendszerekre és módszertanokra használják, amelyek több modalitásból származó információt integrálnak. Modalitások lehetnek vizuális adatok (képek, videók), szöveges tartalom, hang és beszéd, valamint ritkábban tapintási vagy egyéb szenzoros jelek. A megközelítés célja, hogy a különböző források együttese részletesebb és robosztusabb értelmezést adjon, különösen olyan feladatokban, ahol egyetlen modalitás nem elégséges.
A többmódusú feldolgozás gyakori területei közé tartoznak a képosztályozás és -értelmezés, a képpel kiegészített szövegek generálása
A módszertanban beszélhetünk korai (early) és késői (late) fúzióról, kereszmodális figyelemmel (cross-modal attention) és ko-attention alapú