szövegtárak
A szövegtár, vagy corpus, egy nagy méretű, strukturált szöveggyűjtemény, amelyet nyelvi kutatások és számítógépes nyelvfeldolgozás céljaira hoznak létre. Ezek a gyűjtemények gyakran elektronikus formában léteznek, és különféle forrásokból származhatnak, beleértve könyveket, újságcikkeket, weboldalakat, beszédeket és más írott vagy beszélt anyagokat. A szövegtárak célja, hogy reprezentálják a nyelv egy adott változatát, időszakát vagy műfaját, lehetővé téve a kutatók számára a nyelvi jelenségek statisztikai elemzését.
A szövegtárak fontos szerepet játszanak a nyelvtanulásban, a szótárírásban, a fordítástudományban, a gépi fordításban, a beszédfelismerésben
A szövegtárak felépítése és karbantartása jelentős erőfeszítést igényel. Fontos a szövegek hitelessége, a szerzői jogok betartása