ホーム » プライバシーテック » 【用語解説】差分プライバシーとは

この記事では、近年プライバシー保護の観点から注目されている、差分プライバシーに関する解説を行います。

数式を用いた差分プライバシーの説明はこちらから。

【技術】差分プライバシーとはどんな技術なのか

はじめに

ビッグデータやAI技術への注目の高まりが示すように、様々なデータを活用する事によって、私たちの生活を豊かにするための知見を得られるようになることが期待されています。

その一方、それらの分析対象となるデータには個人のプライバシーと関連する情報が含まれており、これらの情報を取り扱う企業や政府には責任が伴います。

そんな中、分析の結果から個人データを再識別することもできないように保護できる、差分プライバシーという技術が注目されています。

プライバシー保護に関わるデータの種類

プライバシー保護に関するデータの種類として以下が存在します。

  • 識別個人情報
    • 直接識別個人情報
      • 個人が特定できるように加工した情報 例 : マイナンバー、指紋データ
    • 間接識別個人情報
      • 直接個人を識別できないが複数組み合わせると識別できる情報 例 : 年齢、性別、生年月日、職務
  • 要配慮個人情報
    • 個人は特定できないが、それ単体で影響が出たり、差別につながったりする情報 例 : 人種、国籍、宗教、犯罪歴

なお、要配慮個人情報など、個人情報に関する詳細は以下の記事にて紹介しています。

http://acompany.tech/blog/personal-information-explanation/

匿名化の弱点

現在、様々な場面で情報を取り扱う際に「匿名化」という手法が用いられています。

これは、名前や生年月日、住所などの個人を特定可能な情報を削除または変更するデータ処理手法です。

匿名化に関する詳細は、以下の記事にて解説しています。

http://acompany.tech/blog/anonymization-and-secrecy/

しかし、この匿名化を行っても、個人が特定されてしまう場合が存在します。例えば、以下のような事例です。

  • アメリカ合衆国内のとある州における、医療保険データと選挙人名簿の事例
    • 医療保険データには、性別や郵便番号などと、どのような病気を患っているかが記載されている。また、選挙人名簿には、性別や郵便番号などと支持政党などが記載されている。
    • この両者のデータを比較する事によって、州知事の病気の状態が判明してしまう。
  • アメリカ合衆国内の年におけるタクシーの乗車記録
    • この都市では、1.73億件もの乗車履歴(乗車場所、目的場所、時間)が公開されていた。
    • そのレコードのIDはレコード化されていたが、ナンバープレートの数字と関連があり、タクシードライバーの自宅や年収等が推測できる状態になっていた。

このように、匿名化を行っているにもかかわらず、それらの情報を重ね合わせる事によって個人情報の流出に繋がりかねないケースが存在します。

匿名化における工夫

匿名化を行っているにもかかわらず、個人情報が流出してしまう事態を防ぐために以下の手法が用いられます。

k-匿名性

間接識別個人情報を匿名化することによって、少なくともk個までしか対象を絞り込めない状態を、k-匿名性を満たせていると言います。

例えば、下記の表において性別/入学年度/クラスの情報のみでは、個人を2人までしか絞り込むことができません。

l-多様性

間接識別個人情報が等しいk個のレコードにおいて、要配慮個人情報が少なくともl種類以上の時、l-多様性があると言います。

例えば、下記の表において、学籍番号が5441と、4827の生徒に注目すると、どちらも住所がZ市となっており、間接識別個人情報を基に、彼女たちの要配慮個人情報である、住所を識別できてしまいます。

下記の表における学籍番号3350と1266のレコードに注目すると、2-匿名性と2-多様性が満たせています。

差分プライバシーとは?

差分プライバシーとは、個人データが識別されないようにしながら大規模なデータセットから学習できるようにするアプローチです。

例えば、あるクラスのテストの平均値を出力して公開する場合を考えます。

この時、運悪く攻撃者がターゲットの情報以外の情報を知っていた場合、攻撃者は自分が持っている情報と、公開された情報をもとに、ターゲットの情報を算出することができます。

つまり、ターゲットの情報以外の情報という、元のデータセットと近しいデータセットが攻撃者に得られる場合、差分となる情報に対するプライバシーが保護されない状態となります。

この対策として、統計量の公開を、十分に乱雑化する方法があります。

これによって、攻撃者が公開された情報と、ターゲット以外の情報を持っていた場合であっても、ターゲットの個人情報を正確に得ることはできなくなります。

この時、乱雑化のために追加したZは、平均点の計算において小さい値であるため、解析に影響を与えません。しかし、母数(図の例で言えば、テストに参加している人数)が多くなればなるほど、攻撃者によるAの点数の計算においてZが与える影響は大きくなります。

これによって、解析結果に大きな影響を与えることなく、個人のデータを保護することができます。

これが、差分プライバシーによる、プライバシー保護の方法です。

どのように活用されているのか

  • Appleは、WWDC2016において、以下の情報等をユーザの端末からAppleのサーバに送信する際、ノイズを加える事によって差分プライバシーを実現していると発表しています。
    • 絵文字の利用頻度
    • QuickTypeの辞書にはない新単語

    これらのデータは、第三者に提供される事で個人のプライバシーを侵害しうる可能性を持っています。しかし、Appleはノイズが加わった状態で情報をデータベースに保存する事によって、第三者がこのデータベースを閲覧した場合でも個人のプライバシーは守られると主張しています。

  • Googleは、例えばGoogleマップで検索したレストランの情報に混雑時間や人気メニューを表示する機能に、差分プライバシーを使っています。加えて、自社のサービス強化に使っている差分プライバシーライブラリのオープンソース版をGitHubに公開しています。
  • Facebookなどの大手テック企業や、米国政府機関は、差分プライバシーを使ったデータ分析の研究・開発を積極的に行っています。 機械学習のユースケースが世界で爆発的に増え、次なる技術トレンドの芽を探している企業が多い中、データのプライバシー保護は重要なトレンドになっていきそうです。

まとめ

差分プライバシーは、アプリケーションの利便性向上のためのデータ収集の際のプライバシー保護など、様々な場面で利用されています。

  • 匿名化を行っても、それらの情報から個人の特定につながってしまうことがある。
  • 差分プライバシーとは、弱い匿名性が成り立っている状態を満たす、プライバシーの定義の一つである。
  • 差分プライバシーの技術は、GAFAや米国政府などが積極的に研究・開発を行っている。

参考