Epästrukturoidun
Epästrukturoidun datan käsite kuvaa tietoa, joka ei noudata ennalta määriteltyä rakennetta tai skeemaa. Käytännössä sillä viitataan monenlaisiin lähteisiin, joiden ominaisuudet eivät mahdu helposti taulukkomuotoiseen malliin. Epästrukturoidusta datasta pyritään useimmiten löytämään arvo kontekstuaalisen jäsentämisen ja lisätyön avulla.
Tyypillisiä epästrukturoidun datan muotoja ovat vapaatekstiasiakirjat ja sähköpostit, blogikirjoitukset sekä sosiaalisen median julkaisut, mutta myös multimedia
Hyödyntämiseksi käytetään menetelmiä kuten luonnollisen kielen käsittelyä (NLP), koneoppimista sekä tiedonlouhintaa ja OCR-tekniikkaa skannatuista asiakirjoista. Lisäksi