ビッグデータ1

1.ビッグデータとは

 一般的なデータ管理・処理ソフトウェアでは扱うことが困難なほど巨大で複雑なデータの集合。ビッグデータの本質とは、
 ・従来のシステムでは取り扱いできない巨大なデータ
 ・定型ではない複雑なデータ
 ・データから得られる二次情報を活用することにより、新たな発見・予防など新たな価値を得ることができる

 

2.ビッグデータの種類
 構造化データ :データベースに格納される行列の二次元で表現されるデータ 
 準構造化データ:ログデータ、センサーデータ、SNSに書き込まれたデータ等完全な構造定義を持たないデータ
 非構造化データ:データ部に構造定義を全く持たない文書、音声、動画、画像等

 準構造化データ、非構造化データは全体のデータ総量の80%を占め、今後5年間で800%の増加傾向。

 

3.ビッグデータの特性

 3つのVから5つのVへ。

Velocity(生成頻度):センサ、Web等から常に発生。リアルタイム性が求められる。
Volume(量):大量、爆発的に増加。予測不可能
Variety(多様性) :音声、動画等、非構造化データも含む

Veracity(正確性):センサーデータやユーザコンテンツが発生源
Value(価値):大量なデータを組み合わせることで新たな価値を

 

4.オープンデータ

 オープンデータとはだれでもいつでも、利用・再配布できる状態にあるデータのこと。主な公開主体は政府・地方自治体・研究機関・大学・民間企業等である。具体例としては国税調査データ(e-stat:政府統計の総合窓口)や気象データなど。

 

5.ビッグデータとセキュリティ

 個人情報の許諾を得る方法

 オプトイン(事前承認):
明示的な同意がない限り、個人情報やプライバシー情報は収集されない

 オプトアウト(事後承認):
明示的に拒否していない限りは同意したものとし、明示的な拒否により個人情報やプライバシー情報の利用が停止される

 

 匿名加工処理の手法

(1)摂動法
 ①K-匿名化:同じグループ内に、同じ属性のユーザが「K人以上いる」状態を作り出す。
 ②L-多様性:漏洩させたくない属性が同じグループ内で「L種類以上ある」状態を作り出す。
 ③T-近接性:マイナー属性を持つグループが生まれるなど、属性値の分布に偏りが出てしまう場合に、グループの分割や一般化を行う。
 ④差分プライバシー:2006年に提案された新しい手法。元のデータベースにノイズを足した別のデータベースを用意し、守りたいレコードを特定しづらくする。

(2)暗号法
 ①質問監査:データベースへのアクセス者に質問を投げかけ、答えることができれば、アクセスに対する回答を返す。
 ②秘密計算:関係者全員が、自社データを他人が読めないように変換し、秘密計算のシステムに投入する。そのシステムの管理者が、秘密計算の結果を求め、関係者に回答する。
 ③準同型性公開鍵暗号を用いた暗号プロトコル:遺伝子データ等、加工してしまうとそもそも分析できなくなるデータを処理するときに活用。検索者の検索クエリ、データベース、その解答それぞれを暗号化する。分析者が元データベースに触れずとも、望む解析結果が得られる。