datasparsitet - Infinite Lexicon - Infinite Lexicon

datasparsitet

Datasparsitet är ett begrepp inom statistik och maskininlärning som beskriver att en stor andel av de möjliga värdena i ett dataset är nollvärden eller saknade. Det är vanligt i högt dimensionella representationer där de flesta funktioner eller attribut inte är närvarande för varje exempel. Vanliga exempel är textdata som vektorer med en stor mängd ord där endast ett fåtal ord förekommer i varje dokument, eller användar–objekt-matriser i rekommendationssystem där de flesta användare inte interagerar med större delen av objekt.

Konsekvenserna av datasparsitet inkluderar ökade minnes- och beräkningskrav om man lagrar data i opaka format samt

Mätning och dimensioneringsaspekter: datasparsitet mäts ofta med densitet (andelen icke-nollvärden av antalet möjliga) eller sparsitet (1

Åtgärder och metoder: för att hantera sparsitet används ofta datastrukturer och algoritmer som är optimerade för

Relaterade begrepp: datasparsitet diskuteras ofta i kontrast till datamängder med utbredd fullständighet eller med kontext där

överanpassning

icke-nollobservationer

i

icke-nollvärden

dimensionsreducering,

L1-regularisering),

matrisfaktorering,

embedding-tekniker.

rekommendationssystem

objektembeddings

matrisfaktorisering

representationsmått

i