Dataforøgelse
Dataforøgelse er en teknik inden for maskinlæring, der går ud på at øge mængden og mangfoldigheden af træningsdata uden at indsamle nye data. Formålet er at forbedre modellens generalisering, reducere overfitting og udnytte små datasæt bedre. Dataforøgelse anvendes bredt i områder som computer vision, natural language processing og lydbehandling.
Der findes tre overordnede tilgange: transformation og ændringer af eksisterende data, syntetisk genererede data og metoder
Fordelene inkluderer større data-diversitet, mere robuste modeller og bedre præstation i situationer med begrænsede eller skæve
Dataforøgelse bør anvendes sammen med tydelige evalueringsmetoder og kendskab til domænet for at sikre, at forbedringerne