プライバシーテック研究所

プライバシーテックに含まれる技術とは?秘密計算や連合学習、差分プライバシーなど一挙紹介

2022.06.06

はじめに

プライバシーテックとはなんだろうか。

これまでプライバシーテックとは、データを保護したり、安全に計算・分析したりする技術と何度も書いてきた。確かに間違ってはいない。

より深くこのプライバシーテックを説明しようとすれば、暗号技術だったり、AI関連の技術だったりと、今まで同じカテゴリで話が展開されることのなかった技術が並ぶ。これは例えば、データを暗号化して計算する「秘密計算」だったり、データ分析をするためにもとデータをソースに生成した擬似データ「合成データ」だったり、データに対してノイズを付与して保護する「差分プライバシー」などがある。

最近では、改正個人情報保護法の施行により、同意取得用途外でのデータの利用が厳しく禁じられるようになった。このため、Cookieなどを管理する同意管理(CMP)サービスがプライバシーテックとして広まっているようだ。

今回は、これらプライバシーテックにはどのような技術があるのか、各識者の見解を見、ここで取り上げられた技術について概要を見ていきたい。

レポートから見るプライバシーテックにはどんな技術がランクイン?

プライバシーテックという言葉は曖昧だ。

プライバシー強化コンピュテーション(PEC)や、プライバシー強化のためのテクノロジー(PETs)など、表記に揺らぎがある。プライバシーテック研究所では、わかりやすさを重視してこれら単語を「プライバシーテック」として統一している。

今回参考にするのはGartner、日本総研、そしてAI Multipleの3者だ。

Gartnerが考えるプライバシー強化コンピュテーション(PEC)

Gartnerは何度もPECを、同社のセキュリティトレンドで紹介している。

中でも印象的だったのは、2021年9月に公開したリリースだろう。これによれば、2024年までにデータ保護の技術は150億ドル以上、市場規模が拡大するだろうとしている。またGartnerは、『2021年の戦略的テクノロジのトップトレンド』に、PECを含んだ。

ここでのPECは、「信頼できる環境を提供するテクノロジ」「処理とアナリティクスを分散した形で実行するテクノロジ」、そして「処理やアナリティクスに先立ち、データとアルゴリズムを変換するテクノロジ」の3つで構成される技術としている。

またPECに含まれる技術として、SMPC(秘密分散型MPC)や準同型暗号、差分プライバシーなど6個の技術を紹介していた。

日本総研がまとめたプライバシーを守るためのテクノロジー

日本総研が2021年11月に公開した『プライバシー強化技術の概要と動向』。秘密計算がメインで書かれていたどうレポートだが、現状の国内、そして海外のプライバシーテックについて詳細にまとめられており、優良なレポートとなっている。

ここでは、プライバシー強化技術(PETs)を「プライバシー保護規制の基となるプライバシー原則を実現・強化する技術」として紹介。想定される技術としては、秘密計算(SMPC、準同型暗号など)、差分プライバシー、連合学習などが含まれた。

AI系調査会社がまとめたPETs(プライバシーを強化するためのテクノロジー)

最後に紹介するのは、AI系の調査会社AI Multipleが作成した「Top 10 Privacy Enhancing Technologies (PETs) & Uses in 2022」と題した10個のプライバシーテックを体系的にまとめたレポートだ。

同レポートによればPETsは、「データのプライバシーとセキュリティを危険にさらすことなく、商業的、科学的、社会的可能性を最大限に引き出すため、データの価値を引き出すよう設計された幅広いテクノロジー(ハードウェアまたはソフトウェアソリューション)」としている。

ここではPETsについて、SMPC、準同型暗号、差分プライバシーやゼロ知識証明などが紹介された。

ここまでのレポートの技術をまとめると下記の表になる。

各参考資料をもとにプライバシーテック研究所作成

上表を見てもわかるように、秘密計算(SMPC、準同型暗号)、差分プライバシー、ゼロ知識証明が全部のレポートで取り上げられていた。また、連合学習は2個。そのほか、最近プライバシーテックで注目されるようになった技術として合成データなども含まれている。

ここからは、プライバシーテック研究所が注目しているプライバシーテックについて見ていきたい。

プライバシーテックに含まれる技術とは

ここからは、プライバシーテック研究所が考えるプライバシーテックを紹介していく。

SMPC

秘密計算の中でも、複数間のデータ分析を得意とするSMPC(秘密分散型MPC)。データをシェアという無意味なものに変換して複数のサーバーへ送信し、分析する手法だ。秘密分散についてはここで詳しく解説している。

国内ではNTTが、クラウド上で利用可能な秘密計算サービスとして「析秘」を展開。そのほかにも、NECが秘密分散を用いた秘密計算サービスを展開するなど、注目が集まる技術だ。またスタートアップでは、Acompanyが秘密計算エンジンを開発。安全なデータ活用ができるサービス「AutoPrivacy」として提供している。

次の準同型暗号も含めて、秘密計算についてはこの記事で詳しく説明している。

準同型暗号

準同型暗号とは、2者間のデータ入力を公開鍵で暗号化して、暗号文のまま処理し、結果の暗号文を得る。これを、秘密鍵を持つ参加者のみが復号して結果を得ることでデータ漏えいを防ぐ秘密計算の一つだ。

国内ではEAGLYSが取り組んでおり、過去にはTISと共同で、秘密計算と量子暗号通信の技術連携に取り組み、 高セキュリティ水準のデータ連携環境及び暗号鍵管理の構築に成功した

そのほかにも準同型暗号を手掛ける会社には、Zamaがある。同社は準同型暗号を用いて、顔認識や音声アシストなどのシステム開発をしているようだ。

差分プライバシー

差分プライバシーとは、「個人データが識別されないようにしながら大規模なデータセットから学習できるようにするアプローチ」だ。データを出力するときに用い、データにノイズを付加することで識別不可能性を担保する。

例えばあるクラスのAとBとCの平均を求める場合、攻撃者が平均点とBとCの点数を認知していれば、Aの点数は自ずとバレてしまう。しかし、彼ら3人の平均点にZというノイズを付与することで、

すでにAppleが活用を表明しており、絵文字の利用頻度のデータをユーザーの端末からAppleの端末に送信する際に使用しているという

ゼロ知識証明

ゼロ知識証明とは、機微な情報そのものは明かさずに特定の事項を証明する暗号技術だ。例えば、持っている知識Aを、知識Aに関するすべての情報を開示せずに証明できる。例えばゼロ知識証明を使えば、パスワード自体は明かさずに、自分がパスワードを知っているという事実を証明することが可能となる。

想定される用途としては、本人確認やトランザクションの立証、そしてwebサービスへのログインなどだ。

連合学習

連合学習とは、「データを集約せずに分散した状態で機械学習を行う方法」。2017年にGoogleにより提唱された。機械学習の持つ、データのやり取りによる通信量や計算による負荷などといったデメリットを解決する手法として注目を集めている。

連合学習では、個々のデバイスで機械学習を行い、改善点などの必要な要素のみを共有し、統合モデルを学習する。そのため、機密性の高い情報を組織間で共有することなく、高精度なモデルを作成することができる。

このため連合学習は、スマホなどの大量のデータを有する端末から必要な情報を活用するため、すべてのデータを収集せず、データ分析ができる。

合成データ

合成データは、「コンピューターのアルゴリズムによって生成された、限りなく実際のデータに近い人工データ」だ。ただの合成データだけでは、プライバシーテックということはできない。しかし、それが実際のデータを守るため擬似データとして合成データとして使えると言ったらどうだろうか。

データ分析過程は、入力・計算過程・出力と3フェーズに分けることができる。この中で入力部分のプライバシーテックとされる合成データは、万が一入力時に漏えいしたとしても、データを守ることができる。

プライバシーテックの中でようやく認知された技術と言って良いだろう。

まとめ

  • プライバシーテックには秘密計算(SMPC、準同型暗号)、差分プライバシー、ゼロ知識証明、連合学習、合成データなどの技術がある。
  • 秘密計算を中心に、国内外で実用化が進んでいる。

参考文献

Top 10 Privacy Enhancing Technologies (PETs) & Uses in 2022

プライバシー強化技術の概説と動向

Gartner 2021年の戦略的テクノロジのトップ・トレンド