Tiedonhakujärjestelmän
Tiedonhakujärjestelmä on järjestelmä, jonka tarkoituksena on löytää käyttäjän kyselyyn liittyviä dokumentteja tai vastauksia suurista tietojoukoista. Tiedonhakujärjestelmät koostuvat tyypillisesti useista keskeisistä osista: indeksoinnista, hakualgoritmeista, ranking-mallista ja käyttöliittymästä. Indeksoinnissa dokumenttien teksti muunnetaan hakukäyttöön sopivaksi, usein inverted indexin ja tekstianalyysin avulla (tokenisointi, stemming tai lemmatointi). Hakuprosessi vastaanottaa kyselyn, purkaa sen semantisesti ja hakee relevantteja dokumentteja. Relevanssin rankkaus perustuu malleihin kuten BM25 sekä vektoripohjaisiin ja myöhemmin syväoppimiseen pohjautuviin malleihin, jotka tuottavat semanttisia etäisyyksiä kyselyn ja dokumenttien välillä.
Tiedonhakujärjestelmiä on eri tyyppejä: täsmähaku (full-text search), strukturoitu haku sekä federatiivinen tai hajautettu haku suurissa järjestelmissä.
Sovelluksia on kirjastoissa, arkistoissa, verkkopalveluissa ja yritysten sisäisissä hakujärjestelmissä. Tiedonhakujärjestelmien suorituskykyä ja laatua arvioidaan mittarein kuten