tiedonpoimintaan
Tiedonpoiminta on prosessi, jonka tarkoituksena on automaattisesti muuttaa epästrukturoitua tai osittain strukturoitua dataa rakenteelliseen muotoon. Tyypillisesti se kohdistuu tekstiin ja pyrkii löytämään ja yhdistämään relevantteja tietoja: entiteettejä kuten henkilöt, organisaatiot ja paikat; suhteita näiden välillä; sekä tapahtumia ja niiden attribuutteja, kuten ajankohtaa tai määrää. Se on tutkimusala, joka kuuluu luonnollisen kielen käsittelyn ja tiedonlouhinnan piiriin, ja sitä sovelletaan muun muassa tiedon rakentamiseen tietokantaan, tietämyksenvetoon ja hakukoneisiin.
Keskeisiä tehtäviä ovat nimi- eli entiteettitunnistus (NER), suhteiden poiminta (relation extraction) sekä tapahtumien ja ominaisuuksien poiminta.
Menetelmät vaihtelevat sääntöperusteisistä lähestymistavoista valvottuihin ja vahvasti valvottuihin koneoppimismalleihin sekä syväoppimiseen, mukaan lukien suurten kielimallien hyödyntäminen.
Arvioinnissa käytetään tarkkuutta, palautusta ja F1-pisteitä sekä standardikokoelmia ja gold-standardia. Tiedonpoiminnan haasteisiin kuuluvat monimerkityksellisten ilmausten käsittely,