はじめに
DXやIoTの促進や5Gの普及などによって、あらゆるものがデジタル化しデータとして取り扱えるようになった結果、収集できるデータ量も増大し、ビッグデータを活用したマーケティング・経営分析が一般化した。
一方、プライバシー保護への意識は年々高まっており、企業はプライバシー保護とデータ利活用の両立を求められている。しかし、データ利活用の高度化によって従来のプライバシー保護手法ではユーザーが求めているレベルでのプライバシー保護ができなくなった。
この状況を解決するために注目されているのが「差分プライバシー」と呼ばれる新しいプライバシー保護手法だ。
今回は、差分プライバシーの概要や現状、必要とされる背景、取り組んでいる企業について解説していく。
差分プライバシーとは
「差分プライバシー」とは、Microsoft Researchに在籍していたDwork氏らによって2006年に提唱されたプライバシー定義であり、汎用的な安全性を実現するためのプライバシー保護における統一的な指標のことだ。
データに対して適切なノイズを加える差分プライバシーであれば、統計上の有用性を損なうことなく、数学的に証明可能なプライバシー保証を提供できる。
もう少し詳しくみていこう。
例えば、あるクラスにおいて、AさんとBさん、Cさんのテストの平均点を公開したとしよう。この時、攻撃者が運悪くBさんとCさんの点数を知っていた場合、持っている情報と公開された情報をもとにAさんの点数を算出できる。
つまり、複数の情報を組み合わせれば個人の情報を特定されてしまうリスクがあるというわけだ。一見安全に見える「統計情報」や「匿名加工情報」などのデータにも同様のことがいえる。
この対策として有用なのが当記事のテーマである差分プライバシーだ。差分プライバシーの場合、AさんとBさん、Cさんの平均点を算出する際にZつまりノイズを加える。
Zが追加されれば、統計結果が乱雑化されるため、仮に攻撃者がBさんとCさんの点数を知っていたとしてもAさんの正確な点数は得られなくなるというわけだ。また、データの分母数つまりテストの参加者が多ければ、Zの影響は大きくなる。
これによって、統計上の有用性を損なうことなく、個人データを保護することが可能だ。
プライバシーテック研究所では別記事にさらに詳しく差分プライバシーについて解説している。そちらもあわせてチェックしてほしい。
差分プライバシーの現状
2016年、macOSやiOS開発者向けに開催しているWWCD(Worldwide Developers Conference)において、Appleが差分プライバシーに言及し大きな注目を集め、2017年にはコンピュータサイエンス分野の最高峰である「ゲーデル賞」を受賞した。
ヨーロッパ委員会とヨーロッパ議会の合意によって2023年に施行される「データガバナンス法案」では匿名化や抑制などのプライバシー保護手段の1つとして差分プライバシーが挙げられており、データの利活用とプライバシー保護を行える技術として注目を集めている。
差分プライバシーの実用化も進められている。
Appleはユーザーデータ保護を目的にiPhoneやiPad、Apple WatchなどApple製品のデバイス解析などに差分プライバシーを採用している。
主にキーボード入力データのマスキングなどに利用されており、この技術によって個人のプライバシーを犠牲にすることなく、QuickTypeや絵文字などの提案が可能だ。
Googleマップの混雑状況にもAppleと同じくユーザーデータ保護を目的に差分プライバシーが用いられている。
Googleマップの混雑状況は末端デバイスのユーザーロケーションデータによって実現しているサービスだが、ユーザーロケーションデータがトラッキングされてしまうため、プライバシーリスクがあった。
そこで利用されたのが差分プライバシーだ。ロケーションデータへ人為的にノイズを追加することでトラッキングされることなく混雑状況を表示することが可能だ。
また、データ利用者へ配慮するために差分プライバシーが活用されている事例もある。代表的なものとして挙げられるのが、乗客データの保護を目的にしているUberの事例だ。
どの地域からどの人間がどこからどこまでタクシーを使用したかというデータは、悪意のある攻撃方法によっては個人を識別されるリスクがある。乗車データにノイズを入れ込むことによって、個人の識別を防止し、どこで多く利用されているかなどのデータを乱雑化することも可能だ。
これら以外にも、Metaやアメリカの国勢調査などでも差分プライバシーは導入されている。
日本でも株式会社リクルートライフスタイルなどで差分プライバシーが導入されていたり、差分プライバシーの研究が進んでいたりしており、差分プライバシーはデータ活用社会において重要な技術となりつつあるといってよいだろう。
差分プライバシーが必要とされている背景
差分プライバシーがDwork氏らによってはじめて定義されたのは前述のとおり、2006年のことだ。誕生してから間もないにもかかわらず、なぜここまで差分プライバシーが注目され、実用化が進められているのだろうか。
差分プライバシーがここまで必要とされている背景には様々あるが、代表的な理由として挙げられるのが「データ利活用の高度化」だ。
急速なデジタル化によって、あらゆるものがデータ化された現代では、膨大なデータを収集できるようになり、今まで以上に柔軟なデータ分析が可能となった。その結果、これまでは問題にならなかったプライバシーリスクが生じている。
従来のプライバシー保護手法であれば、氏名など直接個人を識別できる情報を削除するなどすれば問題なかった。
しかし、取得できるデータが増大し、データ利活用が高度化したことで、複数の情報をあわせれば個人を識別できるようになってきており、これまでのプライバシー保護手法では個人のプライバシーを保護できない状況となっている。
事実、Netflixやマサチューセッツ州では、個人を識別できる直接の情報を削除し公開したにもかかわらず、別情報との照らし合わせによって個人を特定されるというインシデントを起こしている。
つまり、「データ利活用の高度化」によって、従来のプライバシー保護手法が通用しなくなってきているというわけだ。これらに変わる新しいプライバシー保護手法として差分プライバシーの必要性が高まってきている。
差分プライバシーに取り組んでいる企業
差分プライバシーの必要性が高まる中、差分プライバシーに取り組んでいる企業も増えてきている。
ここでは、差分プライバシーに取り組んでいる企業についてみていこう。
Privitar
プライバシー保護ソフトウェア製作専門の企業であるPrivitarは、プライバシー保護をしながらデータインサイト共有する仕組みとして差分プライバシーの1部を採用している。
これまでに解説したとおり、均されただけでのデータでは逆引きして個人情報が特定されてしまう恐れがあり、十分なプライバシー保護が行えない。Privitarはノイズとして偽データを紛れ込ませてデータの乱雑化を図る差分プライバシーの重要性を訴えている。
Statice
StaticeはPrivitarと同じく、企業のプライバシー漏洩リスクを抑えながら、機密データから価値を引き出せるようにデータ匿名化する手段を構築している企業だ。
プライバシー保護手段として差分プライバシーを取り扱っているものの、どちらかといえば合成データを重視している。
Oasis
Oasisは新しいプライバシー保護手法である差分プライバシーを活用し、特定のデータセットへのアクセスに対してプログラムによるプライバシー保証を提供している。
BMWグループと初期段階のプロジェクトから協働しており、差分プライバシーによって革新的な情報セキュリティに対応する手法を生み出し、自動車産業におけるデータ活用の新基準を確立している。
LayerX
LayerXはPrivacyTech事業として、セキュリティやプライバシー保護技術の研究開発を進めている企業だ。「Anonify」と呼ばれるブランド名でモジュール/ソリューション化を目指している。
LayerXはリクルートと共同で差分プライバシーのテキスト分析への応用研究を行っている。
研究では旅行サイト「じゃらんnet」の口コミデータを活用して、「記述統計」と「MLアルゴリズム」の2つに対して差分プライバシーの適用を行い、分析精度がどこまで保たれるか比較・検証を行った。
分析の詳細は非常に細かいため割愛するが、「記述統計」の場合はノイズ値が0.1~0.3であってもある程度の有用性を保てることが、「MLアルゴリズム」の場合はノイズ値が≥10で安定した結果となることが今回の分析結果で分かったそうだ。
差分プライバシーの課題
新しいプライバシー保護手法として実用化や研究が進められている差分プライバシーだが、プライバシーレベルと実用性のトレードオフという重大な過大を抱えている。
もう少し具体的にみていこう。
前項「差分プライバシーとは」でも解説したとおり、差分プライバシーはデータに対して適切なノイズを加えることで、計上の有用性を損なうことなく、プライバシーを保護する手法のことだ。
しかし、どの程度小さいノイズであれば、プライバシー保護といえるのか基準が定まっていない。したがって、法などの観点からどの程度のレベルであればプライバシー保護といえるのか議論する必要がある。
また、データセット間での依存度が強い場合、単純な差分プライバシー手法では正しくプライバシー保護できないというのが現状だ。
以上の点から、差分プライバシーは使用できる領域が限られており、すべてのシーンで利用できるプライバシー保護手法とはいえない。
今後、研究が進み発展していくことが予想されるものの、現状はこれらの課題を認識したうえで上手く活用していく必要があるだろう。
まとめ
- 差分プライバシーとはデータにノイズを加えて乱雑化することで、統計上の有用性とプライバシー保護を両立させることができる新しいプライバシー保護手法
- 差分プライバシーは2006年に提唱されたプライバシー定義だが既に研究や実用化が進み、AppleやGoogle、Meta、Uber、アメリカの国勢調査などで採用されている。
- データ利活用の高度化によって従来のプライバシー保護手法ではプライバシー保護ができなくなっている背景もあり、差分プライバシーの実用化が急速に進められている
- どの程度小さいノイズであればプライバシー保護といえるのか基準が決まっていない、データセット間の依存度が強いと単純な差分プライバシー手法では正しいプライバシー保護ができないという課題も存在する
参考文献
差分プライバシーとは – AppleやGoogleも活用する最先端のプライバシー保護技術
Enterprise Data Provisioning & Privacy Software – Privitar
Faster data access, better privacy
LayerX 、プライバシー保護技術に関する共同研究をリクルートと実施
Explainer: what is differential privacy and how can it protect your data?