Home

tiedonhakua

Tiedonhakua, tai tiedonhakukan käsite, on prosessi, jossa käyttäjän tiedon tarvetta vastaavat resurssit haetaan suuresta kokoelmasta. Tavoitteena on löytää relevantit dokumentit mahdollisimman nopeasti ja käyttäjän konteksti huomioiden. Alan keskeinen idea on parantaa sekä tehokkuutta että relevanssia suurissa datamassoissa.

Keskeisiä osia ovat indeksointi, kyselyn käsittely ja ranking. Indeksointi vastaa dokumenttien muokkaamisesta hakutarkoitukseen sopivaksi; tässä vaiheessa

Sovellukset kattavat muun muassa web-haun, digitaalisten kirjastojen haun, yritystiedon haun sekä multimedia- ja monikieliset haut. Tiedonhakua

Arviointi perustuu sekä käyttäjälähtöisiin kokemuksiin että standardoituihin mittareihin. Yleisiä mittareita ovat tarkkuus (precision), kattavuus (recall) sekä

Haasteet ja kehityssuuntaukset: skaalautuvuus, monikielisyys, semanttinen hakutuki, multimodaalinen ja kontekstuaalinen hakutoiminta, sekä tietosuoja ja käyttäjäyksityisyyden suoja.

tehdään
tokenointi,
stemming
ja
stop
wordsin
poisto.
Kyselyn
käsittely
huomioi
kielen
rakenteen
ja
sanaston
sekä
mahdolliset
semanttiset
yhteydet.
Tiedonhakussa
käytetään
erilaisia
retreivalmalleja,
kuten
booleaaneihin
perustuvia,
vektori-
ja
todennäköisyyspohjaisia
sekä
kielimallipohjaisia
lähestymistapoja.
Relevanssiarvioinnissa
käytetään
pisteitä
ja
ranking-funktioita;
tulokset
järjestetään
käyttäjälle
näkyvään
järjestykseen.
Käyttäjäpalautteen
hyödyntäminen
sekä
learning-to-rank
-menetelmät
parantavat
seuraavien
hakukertojen
laatua.
sovelletaan
myös
erikoisalojen
kuten
biolääketieteen
ja
akateemisen
tutkimuksen
tietokannoissa.
F1-mittari;
laajemmissa
järjestelmissä
käytetään
MAP-,
NDCG-
ja
muita
käyttäjäperusteisia
mittareita.
Jatkuva
evaluointi
ja
A/B-testaus
auttavat
parantamaan
tulosten
laatua.
Tulevaisuudessa
neural
information
retrieval
-menetelmät,
kontekstuaalinen
hakukäyttö,
oppivat
hakutulosten
personointi
ja
end-to-end
-ratkaisut
suurille
tietovarannoille.