sananlaskentapitoinen
Sananlaskentapitoinen on suomenkielinen adjektiivi, jota käytetään kuvaamaan lähestymistapoja, menetelmiä tai aineistoja, joissa huomio kiinnittyy pääasiassa sanojen määrän ja frekvenssien perusteella tehtäviin laskelmiin. Tällaiset lähestymistavat painottavat kielen sanallisia ominaisuuksia, kuten tokenien lukumäärää, sanojen yleisyyksiä, tyyppivariaatiota sekä n-grammeja, sen sijaan että ne tarkastelisivat kielen syntaksia tai semantiikkaa syvällisemmin.
Nimen muodostus pohjautuu sananlaskenta-ideaan ja -sananlaskentaan liittyvään termistöön, jossa adjektiivin loppuosan pitoinen ilmaisee luonnetta tai perustaa.
Käyttöalueet ja sovellukset ovat laajoja. Sananlaskentapitoinen lähestymistapa soveltuu esimerkiksi baseline-malleihin luonnollisessa kielessä, tekstin luokitteluun sekä korpustutkimukseen,
Rajoitteet ovat olennaisia. Sananlaskentapitoinen lähestymistapa voi menettää syntaktisen ja semanttisen syvyyden, on herkkä stopwords-häviöille ja domain-
Esimerkkejä sisällöistä ovat bag-of-words- ja TF-IDF-tyyliset mallit sekä n-grammien käyttö tekstin luokittelussa ja tilastollisessa analyysissä. Katso