非構造化データ

非構造化データ (ひこうぞうかデータ、Unstructured Data) とは、構造定義されておらず、主に関係モデルにうまく適合しないデータモデルに分類されるデータを指す。

データの変遷

従来より、人は商業活動や自然現象などを記録/測定した数値を、意味のあるデータ（情報）として活用してきた。そのような数値データを、より効率的に、より生産的に活用するために、計算機（コンピュータ）が生まれ、活用が高度化していく中で、主に関係モデルをベースとしたデータベースに構造化して格納されて活用したため、そのようなデータをのちに構造化データと呼ぶようになった。さらに、ITは、組織や人間の様々な活動をより効率的で生産的にするために、数値、文書、画像、音声、動画など、人のコミュニケーションをより表現するデータを活用するようになった。このようなデータは、構造化データという分類を超えて、完全な構造定義を持たない半構造化データ、あるいは、構造定義を持たない非構造化データとして分類されるようになった。

データベースの変遷

ITの進化にともなって、組織や人間の様々な活動から、数値、文書、画像、音声、動画がデータとして大量に生み出されるようになった。昨今では、それらを総称してビッグデータと呼ぶようになり、それらを格納して活用するためのデータベースも進化し、従来型データベースの問い合わせ言語がSQLであるのに対して、NoSQLと総称されるデータベースも登場するようになった。また、Hadoopなどの分散ファイルシステムも活用されるようになってきた。^[1]