プライバシーテック研究所

匿名加工情報や仮名加工情報を使うには?JR東日本の「駅カルテ」が実現したデータ販売を解説

2022.06.10

はじめに

「匿名加工情報」や「仮名加工情報」を最近よく耳にするようになった。しかし、これらは一体何だろうか。

匿名加工情報は、「個人を識別できないよう加工した情報」だ。対して仮名加工情報とは、「個人情報を加工して他の情報と照合しない限り特定の個人を識別できないようにした情報」だ。2022年4月施工の改正個人情報保護法により追加された。以前追加された匿名加工情報とはまた違うが、事業者側のデータ活用の幅を広げた、個人情報保護委員会が認めた「データ加工」となる。

そもそも個人情報保護委員会がこれら加工方法を明示し始めた背景には、2013年のJR東日本によるSuica履歴販売の件がある。

しかし現状、これら匿名加工情報や仮名加工情報はなかなか現場で使われにくいのが現状だ。そこで今回は仮名加工情報や匿名加工情報の仕組みを実際に利用し、データ販売に漕ぎ着けたJR東日本の「駅カルテ」を考察していく。

復習「匿名加工情報」と「仮名加工情報」の違いは?

プライバシーテック研究所の記事の中でも5万pvを超える『匿名加工情報と仮名加工情報の違いとは?』。それほど、この匿名加工情報と仮名加工情報の違い、そもそもの加工方法が難しいということが伝わってくる。

もしより詳しく匿名加工情報と仮名加工情報の違いについて知りたい方はこの記事を読んでいただいたいのだが、ここでは分かりやすくこの両者の違い、そして個人情報との違いを説明しておく。

そもそも、個人情報と仮名加工情報、匿名加工情報とはどのような情報であり、どのように扱うべきなのだろうか。

個人情報は氏名や生年月日など、個人を特定することができる情報だ。個人情報保護法によれば、生存する個人に関する情報であり、「氏名、生年月日その他の記述等(文書、図画若しくは電磁的記録(電磁的方式(電子的方式、磁気的方式その他人の知覚によっては認識することができない方式をいう。次項第二号において同じ。)で作られる記録」とされている。その他、個人を識別できるもの、個人識別符号も含まれるという。

結局、現状個人情報とは何か具体的に示しているのは「氏名」や「生年月日」程度。個人を識別できると判断される情報が個人情報という定義でとどまっている。

では個人情報から一番遠い存在である、匿名加工情報とはなんだろうか。

匿名加工情報とは、加工もと(もとの個人情報)を復元することができないように加工した情報となっている。個人を識別できない程度まで加工した情報のため、個人情報には該当しない。そのため、本人の同意なしで第三者提供が可能だ。しかし、もとの個人情報とはかけ離れた、精度の悪い情報となっているため、分析精度が落ちてしまうといったデメリットもある。

加工方法に関しては、個人情報保護委員会が出しているガイドラインで加工方法が明示されている。ここでは簡略的に説明するので、詳しくは規則による匿名加工の方法を参照してほしい(規則第34条)。

  • 特定の個人を識別することができる記述等の全部または一部を消去すること
    • 氏名や生年月日などの個人情報とされているもの
  • 個人識別符号の全部を消去すること
  • 個人情報と他の情報とを連結する符号を消去すること
    • 事業者内で個人情報を分散管理してデータベース等を相互に連結するために割り当てられているIDなど
  • 特異な記述を消去すること
    • 年齢「116歳」や、肩書きが「社長」など、該当する記述により個人が特定される記述を指す

より詳しい匿名加工情報については、この記事を参考にしたい。

ここからは、一番ややこしい仮名加工情報について説明する。

仮名加工情報とは、他の情報と組み合わせない限り、特定の個人を識別できない、個人情報と匿名加工情報の中間的存在だ。組織間での情報のやり取りや、データの二次利用が容易になる(ホームページ等での公表で利用できる)といった点で期待されている。

またこの仮名化は、GDPR(一般データ保護規則)においても匿名化同様、定義されており、日本だけではなく世界的にも取り入れられている手法だ。

ではどのように加工するのだろうか。詳しくは規則(第31条)を参考にしてほしい。

  • 特定の個人を識別することができる記述等の全部又は一部を削除すること(別の識別情報に置き換え可能)
  • 個人情報に含まれる個人識別符号の全部を削除すること(別の識別情報に置き換え可能)

より詳しい仮名加工についてはこの記事を参考にしたい。

JR東日本の「駅カルテ」はなぜOKなのか

匿名加工情報と仮名加工情報の違いがなんとなくわかったところで、ここからはJR東日本の「駅カルテ」について見ていきたい。この駅カルテは、匿名化・仮名化を忠実に守ったデータ販売の好事例だ。

駅カルテとは、「JR東日本の首都圏約600駅の各駅の利用状況が定型レポートとしてまとめられているレポート」だ。観光流動調査や駅周辺整備検討、市場調査など、1日に何万人、何十万人と利用する駅のデータを民間に販売している。これらデータのソースはユーザーの持つSuicaから得たデータであり、もとは個人の行動履歴などに結びつく。

駅カルテで提供される情報を見てみると、「利用者の性別・年代別の特徴」や「利用状況」「どこから訪問している人が多い」などといった、ある程度ユーザーの属性に基づく加工情報を閲覧することができる。

ここまで見ていると、この駅カルテは個人情報保護法違反ではないのだろうかという疑問が浮かぶ。加工方法によってはNGかもしれないと、どうしても疑いの目を向けてしまう。

Suicaデータの活用についてとのページを参照すると、「Suicaデータを統計処理した活用について」や「Suicaのデータを統計処理した分析結果を活用した事例」、そして「Suicaに関する統計情報の当社グループ外への提供」が記載されている。もちろん、「除外要請フォーム」より簡単にオプトアウトの要請ができる

またデータ活用についての中の駅カルテのページには、どうプライバシーに配慮して駅カルテを作成しているのかが視覚的に分かりやすく明示されている。

駅カルテでは、①非特定化処理②集計処理③秘匿処理の3つの処理により、個人が特定されない形でデータ処理がされている。

https://www.jreast.co.jp/suica/corporate/suicadata/privacy.htmlより引用

1つ目の非特定化処理は、先ほど説明した「仮名加工」だろう

ポイントとなる点は、「Suica ID番号を変換番号にしている点」「氏名の消去」「生年月日の日を返還していること」「電話番号を消去していること」の4点だ。

個人を特定する個人情報となる氏名の消去や、生年月日のうち個人を特定されやすい「日」を消去することで、個人とデータを切り離している。

またIDはSuica IDのままだと個人に紐づくことになるが、駅カルテ用データ用に変換する別の識別子を置くことで、もとデータとの紐付けを絶っている。

https://www.jreast.co.jp/suica/corporate/suicadata/privacy.htmlより引用

また「仮名加工情報は第三者提供する場合、ユーザーからの同意を得なければいけないではないか」という声に対しては、先ほどのSuicaに関する統計情報の当社グループ外への提供部分で、

当社ではSuicaに関するデータを統計分析し、お客さまのニーズに理解を深め、サービス品質の向上や、地域や駅、沿線のさらなる活性化に取り組んでいます。その一環として、Suicaに関する統計情報の当社グループ外への提供を行うものとしております。お持ちのSuicaに関するデータ提供を希望されないお客さまは、当社グループ外への提供分から除外いたします。

と書くことでカバーしている。

そのほか、②集計処理③秘匿処理に関しては特に個人情報保護法に定められてはいないが、データの括りを大きくする(タグ付けする)ことで、個人をぼかした処理を行なっている。

駅カルテは、

  • ユーザーが簡単にオプトアウトできる動線を敷く
  • Suicaデータの利用方法を具体例を持って明示する
  • 駅カルテ用データの加工方法を明示する

ことにより、データ販売を実現させたというわけだ。

なぜ2013年のSuica履歴販売はNGだったのか

逆に、データ販売のNG事例も紹介しておく。同じくJR東日本の、通称「Suica事件」だ。

このSuica事件は2013年に発生した事案で、当時は匿名加工情報や仮名加工情報の概念はなかった。同案件の概要は、日立製作所(という第三者)が、JR東日本のSuicaの乗降履歴を使った分析サービスを提供すると発表。これにより、JR東日本がSuicaの利用履歴を、パーソナルデータと紐付けた形で外部企業に販売していたことが広く知れ渡り、波紋を呼んだ。

しかし、どの点がSuica事件では問題だったのだろうか。

当時のJR東日本と日立製作所とのデータのやりとりの図があったので参考にする。

https://www.jreast.co.jp/press/2013/20130716.pdfより引用

一見、第三者となる日立製作所へは「元のSuica IDと照合できないよう変換」しているし、日立製作所から出される情報は「統計的な分析結果」へと加工されている。また、JR東日本内でも個人情報とされる「利用者氏名」や「電話番号」などは消去されている。

また『Suicaに関するデータの社外への提供について』に書かれていたデータの取り扱いを見ると、下記のようになっている。

(1) 日立製作所には、統計分析に必要な最低限の Suica に関するデータを切り出して提供しています。これらには氏名や連絡先は含まれておらず、個人を特定することはできません。
(2) SuicaID 番号を他の形式に変換した識別番号は、元の SuicaID 番号に復元できないようにしており、氏名や連絡先と紐づけることができません。また、特定の Suicaのデータを長期にわたって追跡できないようにしております。さらに、他のデータと紐づけたり、提供データから個人を特定する行為は契約で厳格に禁止しております。
(3) 日立製作所が作成するマーケティング資料は、データを統計的に処理した結果をまとめたものです。設定した基準以下の集計結果については数値表示やグラフ化を行わないなど、個人の行動を特定できないよう、お客さまのプライバシーに配慮しております。
(4) さらに、このような提供データの取り扱い状況に対して、当社として監査を実施できることとしております。
(5) なお、当社における「Suica に関する情報を社外提供向けに加工する部門(情報ビジネスセンター)」は、氏名や連絡先等の個人情報を保有しておりません。また、「個人情報を保有している部門」と、組織、作業環境、スタッフ、システムを厳格に分離しており、自ら管理する情報以外の情報と照合することができないようにしております。
(6) 日立製作所に提供している Suica に関するデータは個人を特定することができない情報であることから、提供について約款等への記載や個別の許諾をいただいておりませんが、上記のように法令の趣旨にのっとりお客さまのプライバシーに配慮して取り扱っております。

https://www.jreast.co.jp/press/2013/20130716.pdfより引用

これらJR東日本の報告を踏まえて、何が問題だったのか、当時の報告書を見ていく。

Suica事件では、2014年にSuica に関するデータの社外への提供についての有識者会議により『Suicaに関するデータの社外への提供について 中間とりまとめ』が提出されている。同報告書によれば、

  • ユーザーに対するデータ利用の告知が不足していた
  • オプトアウトへの対応が不足していた
  • 継続的なデータの提供は将来的に個人情報との結びつきが考えられる

と指摘された。

そのほかの指摘には、有識者団体プライバシーフリークによる講演内容をまとめた『ニッポンの個人情報』によれば、

  • オプトアウトの方法がわかりにくい
  • JR東日本と日立製作所の「契約」により、提供する情報は制限しているといっているものの、「第三者提供の制限」の規定を完全に網羅していない
  • 提供データの範囲が細かすぎる。秒単位でのデータ提供により、たとえ氏名など個人情報が加工されていたとしても個人が特定されてしまうのではないか。

などのポイントが指摘された。

当時、匿名加工や仮名加工といった概念がなかったとしても、オプトアウトのやり方をユーザーに対してはっきりとわかりやすく明示していなかった点や、データを加工しているとはいえ個人が特定されてもおかしくないほど細かなデータ提供は、現時点でも推奨されるデータ利活用ではない。

匿名加工情報や仮名加工情報への加工方法や、過去に個人情報保護委員会に指摘された事例を調査した上で、データ活用を検討してほしい。

個人情報保護委員会が注意・命令を出した案件

まとめ

  • 仮名加工情報は、他の情報と照合しない限り、特定の個人を識別することができないよう加工した情報
  • 匿名加工情報は、加工もとの個人情報を復元することができないようにした
  • JR東日本の「駅カルテ」は、仮名加工情報を利用していると考えられる
  • 2013年にJR東日本が取り組んだデータ外販は、オプトアウトのわかりにくさや、告知の少なさ、データを細かく出しすぎていたことが起因して波紋を呼んだ

参考文献

Suica に関するデータの社外への提供について

Suica に関するデータの社外への提供について 中間とりまとめ

「Suica履歴販売」は何を誤ったのか

鈴木正朝・高木浩光・山本一郎, 2015, 『ニッポンの個人情報 』,翔泳社