nieustrukturyzowane
Nieustrukturyzowane to przymiotnik używany w polskim języku do opisu danych, treści lub materiałów, które nie posiadają stałego, z góry zdefiniowanego modelu danych ani schematu. W informatyce i naukach danych nieustrukturyzowane odnoszą się do treści, które nie są łatwo reprezentowalne w tradycyjnych bazach danych opartych na relacyjnych tabelach. Do typowych przykładów należą teksty (artykuły, e-maile, wiadomości), pliki PDF i strony internetowe, obrazy, dźwięk i wideo, a także zestawy danych, w których elementy mają różne długości i różne pola bez jednorodnej struktury.
Cechą charakterystyczną nieustrukturyzowanych danych jest brak stałego schematu, brak jawnie zdefiniowanych pól oraz wysoka heterogeniczność typów
Metody przetwarzania nieustrukturyzowanych danych obejmują przetwarzanie języka naturalnego (NLP), OCR dla skanowanych dokumentów, ekstrakcję informacji, klasyfikację
Zastosowania obejmują analizę treści, rozpoznawanie intencji i sentiment analysis w mediach społecznościowych, klasyfikację dokumentów, automatyczne kategoryzowanie