ビッグデータ1
1.ビッグデータとは
一般的なデータ管理・処理ソフトウェアでは扱うことが困難なほど巨大で複雑なデータの集合。ビッグデータの本質とは、
・従来のシステムでは取り扱いできない巨大なデータ
・定型ではない複雑なデータ
・データから得られる二次情報を活用することにより、新たな発見・予防など新たな価値を得ることができる
2.ビッグデータの種類
構造化データ :データベースに格納される行列の二次元で表現されるデータ
準構造化データ:ログデータ、センサーデータ、SNSに書き込まれたデータ等完全な構造定義を持たないデータ
非構造化データ:データ部に構造定義を全く持たない文書、音声、動画、画像等
準構造化データ、非構造化データは全体のデータ総量の80%を占め、今後5年間で800%の増加傾向。
3.ビッグデータの特性
3つのVから5つのVへ。
Velocity(生成頻度):センサ、Web等から常に発生。リアルタイム性が求められる。
Volume(量):大量、爆発的に増加。予測不可能
Variety(多様性) :音声、動画等、非構造化データも含む
Veracity(正確性):センサーデータやユーザコンテンツが発生源
Value(価値):大量なデータを組み合わせることで新たな価値を
4.オープンデータ
オープンデータとはだれでもいつでも、利用・再配布できる状態にあるデータのこと。主な公開主体は政府・地方自治体・研究機関・大学・民間企業等である。具体例としては国税調査データ(e-stat:政府統計の総合窓口)や気象データなど。
5.ビッグデータとセキュリティ
個人情報の許諾を得る方法
オプトイン(事前承認):
明示的な同意がない限り、個人情報やプライバシー情報は収集されない
オプトアウト(事後承認):
明示的に拒否していない限りは同意したものとし、明示的な拒否により個人情報やプライバシー情報の利用が停止される
匿名加工処理の手法
(1)摂動法
①K-匿名化:同じグループ内に、同じ属性のユーザが「K人以上いる」状態を作り出す。
②L-多様性:漏洩させたくない属性が同じグループ内で「L種類以上ある」状態を作り出す。
③T-近接性:マイナー属性を持つグループが生まれるなど、属性値の分布に偏りが出てしまう場合に、グループの分割や一般化を行う。
④差分プライバシー:2006年に提案された新しい手法。元のデータベースにノイズを足した別のデータベースを用意し、守りたいレコードを特定しづらくする。
(2)暗号法
①質問監査:データベースへのアクセス者に質問を投げかけ、答えることができれば、アクセスに対する回答を返す。
②秘密計算:関係者全員が、自社データを他人が読めないように変換し、秘密計算のシステムに投入する。そのシステムの管理者が、秘密計算の結果を求め、関係者に回答する。
③準同型性公開鍵暗号を用いた暗号プロトコル:遺伝子データ等、加工してしまうとそもそも分析できなくなるデータを処理するときに活用。検索者の検索クエリ、データベース、その解答それぞれを暗号化する。分析者が元データベースに触れずとも、望む解析結果が得られる。