Home

nieustrukturyzowane

Nieustrukturyzowane to przymiotnik używany w polskim języku do opisu danych, treści lub materiałów, które nie posiadają stałego, z góry zdefiniowanego modelu danych ani schematu. W informatyce i naukach danych nieustrukturyzowane odnoszą się do treści, które nie są łatwo reprezentowalne w tradycyjnych bazach danych opartych na relacyjnych tabelach. Do typowych przykładów należą teksty (artykuły, e-maile, wiadomości), pliki PDF i strony internetowe, obrazy, dźwięk i wideo, a także zestawy danych, w których elementy mają różne długości i różne pola bez jednorodnej struktury.

Cechą charakterystyczną nieustrukturyzowanych danych jest brak stałego schematu, brak jawnie zdefiniowanych pól oraz wysoka heterogeniczność typów

Metody przetwarzania nieustrukturyzowanych danych obejmują przetwarzanie języka naturalnego (NLP), OCR dla skanowanych dokumentów, ekstrakcję informacji, klasyfikację

Zastosowania obejmują analizę treści, rozpoznawanie intencji i sentiment analysis w mediach społecznościowych, klasyfikację dokumentów, automatyczne kategoryzowanie

danych
i
metadanych.
W
przeciwieństwie
do
danych
ustrukturyzowanych,
które
łatwo
przechowywać
w
tabelach
i
poddawać
zapytaniom
SQL,
dane
nieustrukturyzowane
wymagają
dodatkowej
obróbki
i
analizy,
często
z
wykorzystaniem
sztucznej
inteligencji.
i
wyszukiwanie
semantyczne,
a
także
reprezentację
danych
w
postaci
wektorowej.
W
praktyce
stosuje
się
również
technologie
data
lake
do
przechowywania
surowych
zbiorów
danych
oraz
pipeline’y
przetwarzania,
które
konwertują
nieustrukturyzowane
treści
do
form
bardziej
użytecznych
dla
analiz.
wiadomości
e-mail
oraz
wyszukiwanie
informacji
w
dużych
zbiorach
bez
sztywnego
schematu.