Innovation Tips

Innovation, Data Science, Research, Business, etc.

データマーケットの考察 -データサイエンスのためのデータ取得ー

5月17日は、ひっそりと大きな発表がありました。

それがKDDIからの「データマーケット」の登場です。今日はデータマーケットについて、掘り下げて考えていきます。
現在またはこれからデータ解析に関わる方にとっても、データ解析をする前にまずはデータを取得する必要があり、かつデータ取得には注意点があるので今回の内容は損にはならない話かなと思います(必要な部分だけ読んでいただけたらと思います)。


■データマーケットの紹介

KDDI IoTクラウド データマーケット

KDDIは、2017年6月中旬より、IoTによる様々なデータと多種多様なデータを掛け合わせて分析することで、新たな付加価値を提供する「KDDI IoTクラウド ~データマーケット~」の提供を開始しました。

 

データマーケット
(参考)http://news.kddi.com/kddi/corporate/newsrelease/2017/05/17/2455.html

 

このサービスは、法人の顧客が自社で保有するIoT業務データと、提携パートナーが保有するデータ群を複数組み合わせて分析することで、新たな課題やビジネスチャンスの発見、サービスの品質向上を実現するものです。

組み合わせるデータ群は、最新店舗情報、将来人口推計データ、車両・走行挙動データ、ストレス情報など様々です。


以上のようなデータを活用することで、出店時の立地検討や効果的な店頭販促プロモーション等のユースケースが考えられるとのことです。


〇出店時の立地検討

新規店舗のオープンを検討しているチェーン店は、立地検討や競合店舗との商圏比較のために、データ群内の業務車両の車両・走行挙動データを分析することで、店舗前道路の交通量や速度が365日24時間の実データで把握可能となり、立地分析の精度が向上します。

 

〇効果的な店頭販促プロモーション

データ群内の訪日外国人の動向解析データを活用すれば、365日24時間の解析データで各店舗商圏の訪日外国人観光客の滞在状況が把握でき、時間帯別・季節別で店舗ごとに、訪日外国人観光客向けの効率的な店舗販促プロモーションの立案や実行が可能になります。

 

海外では代表的なデータマーケットとして、アイスランドのDataMarket(米Qlickによって買収済み)、フランスのqunb(英Veによって買収済み)とData Publicaなどがありましたが、国内ではどのようなデータマーケットがあるのでしょうか。それでは、既存のデータマーケットと今後登場するであろうデータマーケットを見ていきます。

 

・EverySense

EverySenseはあらゆるセンサーが持つ情報(データ)とそのデータを利用して事業開発や新サービス、学術研究に取り組む企業・研究機関が求める情報(希望条件)をマッチングさせ、データの売買を仲介する世界初のIoT情報流通プラットフォームです。
(2016年10月27日より商用開始)


everysense

(参考) https://every-sense.com/services/everysense/ 

データ提供者はデータリクエストに対してデータを提供すると、その量と質に応じて報酬(ポイント)を獲得することができます。
また、データ利用者は、ほしいデータの条件(デバイス指定や個人属性など)を設定してデータリクエストを作成すると、データ提供者の提供許諾済みのデータを収集することができます。
このように、データのマッチングを通して両者がWin-Winの関係になるプラットフォームとなっています。



・センシングデータ流通市場

オムロンは、センシングデータの利用ニーズと提供ニーズをマッチングさせる「センシングデータ流通市場」を作ろうとしています。
上述のEverySenseと違うのは、シェア型センサーであることです。センサー所有者は、データ提供の対価を見込んで、実質的な投資コストを抑えられるようになります。また、自らは使う予定がなくても、誰かが必要とするだろうと考えて、高性能かつ多様なセンサーを設置する可能性も出てきます。
 

s
(参考)http://www.omron.co.jp/innovation/sensingdatatradingmarket.html


「センシングデータ流通市場」でのデータマッチングにより公共施設やインフラのデータを組み合わせて使えるようになると、企業は混雑緩和のための情報提供など新しいサービスを生み出すことができるようになります。

ある社会課題の解決のためにはどのようなデータが必要か、また、データはどこに隠れていて、どうすれば必要なデータだけを効率的に入手できるか、さらに、どうすればデータを価値に変換できるか。このようにデータが生み出す価値をとことん追求しています。

「センシングデータ流通市場」の創設により、センシングデータを活用したアプリ開発やサービス提供に特化した企業の登場も期待されています。

 

 

・情報銀行
次に紹介するのが、まだまだ構想段階の情報銀行です。

情報銀行は、個人が「提供してもよい」と判断したパーソナル情報を預ける場です。情報銀行は、個人から預かったパーソナル情報を匿名化したうえで、個人の同意に基づき企業に貸し出します。企業は情報の使用料などを情報銀行に支払い、その情報を使って個人の利益につながるようなサービスを開発・提供し、そのサービスによって、情報を預けた個人がポイント等のメリットを得ることができます。


情報銀行
 (参考)https://d-marketing.yahoo.co.jp/entry/20160907417514.html

  


以上のようなデータマーケットはこれからも拡大し続けると考えられます。

米EMCの調査では、地球上で生成されるデータ全体量は2013年から2020年の間で、4兆4000億ギガバイトから44兆ギガバイトへと10倍の規模に拡大すると予測されています。


しかし、実際にはデータをオープンにしていくことには、注意点があります。

■プライバシーの問題

特に、「ヒト」に関するデータを収集し、利活用するときには注意が必要です。

プライバシーの問題は「個人情報保護法」に該当します。個人情報保護法は2003年に成立し、2005年から全面施行されました。2003年には企業が抱える「個人情報」に係わる電子データの情報漏洩を厳しく取り締まるものでしたが、その当時は取り扱いが難しく普及していなかった指紋や顔認識などの生体データや遺伝子データ、来店者の移動履歴、購買履歴などが個人情報に該当するのか考慮に入れられていませんでした。そのため、これら判断不能なデータが「グレーゾーン」の個人情報となり、企業にとっては使いたいけど使えないデータとなってしまいました。


それから約10年後に、その個人情報保護法が改正することになりました。2015年9月3日に可決された改正法は、情報漏洩に対してより厳しい罰則を設ける一方で、ビッグデータの活用を推進する内容となっています。ただし、改正法ではグレーゾーンの多くが個人情報と判定される可能性が高くなります。個人情報の取扱いについては、
①取得したときの「利用目的」の範囲内で取り扱うことが必要で、
②目的外の利用や、第三者への提供にあたっては、原則本人の同意が必要という取り決めがあります。
一般的にビッグデータでの利用は②の「目的外の利用」や「第三者への提供」に当たります。そのため、このままの状況では、ビッグデータを自由に活用することはできません。
 


(2017年5月30日には個人情報保護法が改正され、個人情報の対象が明確になります。具体的には、顔認識データ・指紋認識データなど特定の個人の身体的特徴をデータ化したものや、運転免許証番号・マイナンバーなど個人に割り当てられる番号等が含まれる、特定の個人を識別できる情報について、個人情報の対象として明確化されます。)

保護対象

 

■プライバシー保護に向けたルール

このような状況の中で、政府においては以下のとおり、パーソナルデータの利活用という形で検討が進められ、改正個人情報保護法の中で「匿名個人情報」に関するルールが新たに設けられました。

 

個人情報保護法では、目的外利用や第三者提供にあたっての本人の同意(16条1項、23条1項1号)は、パーソナルデータの「利活用の壁」とされています。

 

・利用目的による制限

16条 個人情報取扱事業者は、あらかじめ本人の同意を得ないで、前条の規定により特定された利用目的の達成に必要な範囲を超えて、個人情報を取り扱ってはならない。

 

・第三者提供の制限

23条 個人情報取扱事業者は、次に掲げる場合を除くほか、あらかじめ本人の同意を得ないで、個人データを第三者に提供してはならない。

一 法令に基づく場合

 

「本人の同意」の趣旨は、個人の権利利益の侵害を未然防止することですが、「匿名加工情報」(個人情報保護法2条9項)においては、個人データ等から「個人の特定性を低減したデータ」への加工を、本人の同意の代わりとすることで、データの利活用を可能とする枠組みを設けました。 
 

個人情報取扱事業者は、匿名加工情報を作成するときは、特定の個人を識別すること及びその作成に用いる個人情報を復元することができないようにするために必要なものとして個人情報保護委員会規則で定める基準に従い、当該個人情報を加工しなければなりません(個人情報保護法36条1項)。


 

プライバシー保護に向けた技術

プライバシー保護の匿名加工に有用と考えられる技術として、「秘密計算」が挙げられます。
秘密計算は、暗号化したデータを元のデータに戻さずそのまま処理する技術です。データが常に暗号化されているので、元データの漏えいを防⽌できます。

秘密計算
(参考)http://jpn.nec.com/press/201612/images/1502-01-01.pdf

秘密計算としては、以下の3つが実現手段として挙げられていました。

準同型暗号

・秘匿回路

・秘密分散


最近では、暗号化したままデータに対し様々な演算を行うことが可能である「準同型暗号」と呼ばれる公開鍵暗号技術において、大きな動きがありました。準同型暗号の暗号化したデータは、暗号化状態のままでのデータ処理が可能であり、これにより利用者のプライバシーを守ることができます。

  

(参考)準同型暗号についての丁寧な解説


(以下、少し込み入った話になります。) 

従来の準同型暗号では、集積・統合後のデータを復号できるサービス提供者は、演算前の個々人のデータも復号できてしまうという問題点があり、結果として、プライバシーが十分守られないという問題が生じえます。また、暗号化データ上の演算権限の制限が難しいという問題もあります。

 

そこで、筑波大学の佐久間教授の研究グループは、代表的な統計解析が必要とする計算が、実数行列の加算と乗算および実数の比較演算の組み合わせに帰着できることに着目し、完全準同型性暗号においてこれらの計算を高速かつ高精度に実現する手法を開発しました。この手法を用いて、数万レコード規模の数値属性、順序属性、カテゴリ属性からなるデータについて、最頻値などの記述統計を数秒~数分程度で、線形回帰などの予測統計モデリングを10分程度で計算可能であることを示しました。例えば線形回帰では、入力次元数に対して指数的な計算時間を必要とする従来の手法に比べ、多項式時間での計算が実現し、20~数千倍以上の効率化となります。

 

また従来、完全準同型暗号が計算効率的に扱うことができる数値データの精度は限定的でしたが、同様に暗号の代数的構造を利用して1つの数値の行列を複数の暗号文を用いて表現することで、任意精度の数値の行列を表現する手法を開発しました。これにより、精度の高い数値計算を必要とする予測統計モデリングを暗号文で高速かつ並列実行することを可能にしました。

完全準同型暗号を用いた秘密計算は、すでに長年のアルゴリズムの工夫の積み重ねと高度な実装技術による高速化が実現している秘匿回路評価による計算に比べ、低速で実用性に欠けると考えられていました。本研究の成果では、行列の乗算や数値の大小比較を含む秘密計算の場合、完全準同型暗号を用いた方法が、条件によっては秘匿回路評価と同等以下の計算時間で処理できることを示しているため、これまでの常識を覆す画期的な結果となっています。


zu1

zu2

zu3
(参考)http://www.jst.go.jp/pr/announce/20170301/

以上のような完全準同型暗号に基づく秘密計算フレームワークを用いることで、複数の組織が保持する個人情報や機密情報を、その機密性やプライバシーを損なうことなく統計解析を行い、その解析結果のみを安全に取得することが可能になります。今後は医療データや個人ゲノムデータ、金融データなど、その取り扱いに慎重さが求められるデータにおいて、プライバシーを完全に保護しつつ自由に統計解析が実行できるようになることが期待できます。

 

 

■おわりに

現実空間、ヴァーチャル空間を問わず、様々なデータを課題解決のために活用することが提唱されていますが、そのためには必要な整備をしていかなければなりません。現在では、データサイエンスが市民権を得て、データ解析のためのライブラリや学習ツールも非常に充実してきました。しかし、肝心の解析用データはまだまだ取得・流通が不十分だと思います。政府としてもオープンデータの流れはありますが、「〇〇のデータ」で検索して、そのデータにヒットすることは、なかなかありません(もちろん、オープンデータとはいえ、限定公開のケースもあります)。

オープンデータやデータマーケットは今後さらに拡大していくことが考えられますが、そこにはデータの取得方法の問題やプライバシーの問題などが存在します。その問題を解決するのは、実はデータやセンサーのシェアであったり、暗号技術であったりもします。
データの取得という大きな「森」を見ながらも、具体的にどう取得してくかという「木」の部分も丁寧に見ていく必要があります。


図1
(参考)平成28年 情報通信白書




・参考URL

 http://it.impressbm.co.jp/articles/-/13044

 https://business.bengo4.com/category3/practice280

 http://www.itri.aist.go.jp/crypto/collaborate/collaborate004.html

 http://www.jst.go.jp/pr/announce/20170301/

 平成28年 情報通信白書

 http://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h28/pdf/28point.pdf