ビッグデータ１ - カレーとごはんの境界線

１．ビッグデータとは

　一般的なデータ管理・処理ソフトウェアでは扱うことが困難なほど巨大で複雑なデータの集合。ビッグデータの本質とは、
　・従来のシステムでは取り扱いできない巨大なデータ
　・定型ではない複雑なデータ
　・データから得られる二次情報を活用することにより、新たな発見・予防など新たな価値を得ることができる

２．ビッグデータの種類
　構造化データ　：データベースに格納される行列の二次元で表現されるデータ　
　準構造化データ：ログデータ、センサーデータ、SNSに書き込まれたデータ等完全な構造定義を持たないデータ
　非構造化データ：データ部に構造定義を全く持たない文書、音声、動画、画像等

　準構造化データ、非構造化データは全体のデータ総量の８０％を占め、今後５年間で８００％の増加傾向。

３．ビッグデータの特性

　３つのVから５つのVへ。

Velocity(生成頻度)：センサ、Web等から常に発生。リアルタイム性が求められる。
Volume(量)：大量、爆発的に増加。予測不可能
Variety(多様性) ：音声、動画等、非構造化データも含む

Veracity(正確性)：センサーデータやユーザコンテンツが発生源
Value(価値)：大量なデータを組み合わせることで新たな価値を

４．オープンデータ

　オープンデータとはだれでもいつでも、利用・再配布できる状態にあるデータのこと。主な公開主体は政府・地方自治体・研究機関・大学・民間企業等である。具体例としては国税調査データ(e-stat：政府統計の総合窓口)や気象データなど。

５．ビッグデータとセキュリティ

　個人情報の許諾を得る方法

　オプトイン(事前承認)：
明示的な同意がない限り、個人情報やプライバシー情報は収集されない

　オプトアウト(事後承認)：
明示的に拒否していない限りは同意したものとし、明示的な拒否により個人情報やプライバシー情報の利用が停止される

　匿名加工処理の手法

(１)摂動法
　①K-匿名化：同じグループ内に、同じ属性のユーザが「K人以上いる」状態を作り出す。
　②L-多様性：漏洩させたくない属性が同じグループ内で「L種類以上ある」状態を作り出す。
　③T-近接性：マイナー属性を持つグループが生まれるなど、属性値の分布に偏りが出てしまう場合に、グループの分割や一般化を行う。
　④差分プライバシー：２００６年に提案された新しい手法。元のデータベースにノイズを足した別のデータベースを用意し、守りたいレコードを特定しづらくする。

(２)暗号法
　①質問監査：データベースへのアクセス者に質問を投げかけ、答えることができれば、アクセスに対する回答を返す。
　②秘密計算：関係者全員が、自社データを他人が読めないように変換し、秘密計算のシステムに投入する。そのシステムの管理者が、秘密計算の結果を求め、関係者に回答する。
　③準同型性公開鍵暗号を用いた暗号プロトコル：遺伝子データ等、加工してしまうとそもそも分析できなくなるデータを処理するときに活用。検索者の検索クエリ、データベース、その解答それぞれを暗号化する。分析者が元データベースに触れずとも、望む解析結果が得られる。