はじめに
AIの精度を高めるためには、有効な、使えるデータが大量に必要だ。しかし、必要となるデータがいつも最適な形で存在しているとは限らない。もしかしたら、必要数のデータがない可能性もある。
しかし、データがないから機械学習できませんとは言えない。
こういったデータがない解決する存在として出てくるのが、擬似的に生成された実際のデータに近いデータ「合成データ」だ。AI学習のためによく利用されていたものという印象が強いが、実際には生データを提供できない場合に代用するケースや、個人情報保護の観点から採用するケースも見られ、プライバシーテックの一つとも認識されつつある。
そこで今回はこの合成データとは何か、具体的な事例も含めて書いていく。
合成データとは何か
合成データとは、「コンピューターのアルゴリズムによって生成された、限りなく実際のデータに近い人工データ」だ。英語では、Synthetic Data。別名Artificially Generated Dataともいう。

合成データは大きく3つに分類され、模擬データ、ルールベースデータ、そしてAI製データがある。
模擬データとは、個人情報保護の観点からダミーを入れる必要がある場合に使われるためのデータだ。ルールベースデータとは、データの生成者がが取り決めた一定のルールにもとづいて生成されるデータだ。そしてAI製データとは、生データから傾向と内容をAIに識別させ、学習させた上で生成されるデータだ。データが少量の場合でもあたかも生データであるかのようなデータの再現・出力が可能な点が特徴となっている。
なぜ合成データが必要とされるのか
そもそもなぜ、合成データが必要とされるのだろうか。
使えるデータ不足を補うためと、プライバシーの観点、この2つを解決するためだ。例えば、今までデータの重要性に気づいておらずデータを保管していなかった場合や、保管していた場合でも信憑性の薄いデータの可能性もある。また、対象となるデータそのものが患者の病歴や顧客の資産額など機密性が高く、分析がしずらい可能性もある。
これら課題解決が期待されているのだ。
とはいえ本物のデータではないのだから、適当にランダムにデータを生成してしまえばいいのではないかという意見もあるかもしれない。
しかし合成データは、もとのデータに基づいたアルゴリズムで生成されるため一定のクオリティは担保されるとなっている。全くないゼロから偽データを生成するわけではないので、信頼されるということだ。

もちろんデメリットもある。
結局はもとのデータではないので、合成データを活用した分析精度は落ちてしまう。他にも、参考にしたデータが万が一、分析者側のバイアスがかかっていた場合、バイアスを排除することを失敗する可能性がある。
これらメリットデメリットを理解しつつ、合成データは使用する必要があるというわけだ。
合成データの具体的事例
では実際に合成データを使ったビジネスは、どのように展開されているのだろうか。AI Multipleによれば、第三者へのデータ共有や内部でのデータ共有、不正検知、顧客分析、そして臨床試験などに使用できるのではないかというレポートを出している。
ここでは実際にリリース、もしくは記事になった2つの合成データの事例を紹介する。
①合成データでバーチャル試着を実現
データグリットは、合成データを用いたコーディネート試着アプリ「kitemiru」を展開。ECサイト用に撮影したモデル画像を登録するだけで、試着ページを簡単に発行することができるサービスだ。
すでにβ版を公開し、子供服ブランド『BREEZE』で実証実験も兼ねたサービスを開始している。
そのほかにも同社は、AIで生成する合成データを活用し、モデル確保が不要なストックフォトサービスや工場の不良判定AIを生成するための合成データサービスを展開している。
②詐欺を事前に特定するために合成データを活用
クレジットカードのアメリカンエキスプレスは、クレジットカードの詐欺を事前に検知する目的で、合成データを用いたAIの学習を進めてきた。どのタイプの不正検知にも対応するため、存在しないタイプの場合に合成データを使用したという。
今後、合成データの利用が期待されるケース
とはいえまだまだ合成データは未発達な技術だ。ここからは今後想定されるユースケースを見ていく。
①社外とのデータ共有を必要とする企業
個人情報を含むデータにダミーとして合成データを入れた上で共有することで、第三者と協力してデータ利用をしなければいけない企業が、コンプライアンス違反やセキュリティ問題を回避することが可能となる。
②クラウドへデータ移行を検討している企業
社外秘を含むデータにダミーとして合成データを入れた上で共することで、個人情報や社外秘の情報をSaaSへ預けることで生じる不安感を払拭する材料になる。ただ合成データを活用したクラウドサービスの利用は、例えばSaaSなどのクラウドサービスは顧客データを扱うことが多いため、正確な情報を取得することができなくなるデメリットも考慮する必要がある。
③機械学習モデルを組もうとしている企業
生成された合成データによって機械学習を実施することで、膨大な量のデータを必要とする機械学習の学習モデルを安価に組むことができる。
その他にも交通事故などリアルでは取得できないデータを合成データで生成することによる、自動運転による学習モデルの構築や、不正アクセスの予測モデルの構築などで期待されている。
なぜ合成データをプライバシーテックということができるのか
この合成データは、プライバシーテックの一つとして考えられている。プライバシーテックとは、企業が持つ個人データの適切な活用と、個人情報を保護するために不可欠な技術だ。
しかしなぜ合成データがプライバシーテックに含まれるのだろうか。
合成データを使用する理由の中に「プライバシーを保護するため」があった。合成データはリアルなデータではないため、万が一漏えいしたとしても、個人情報漏えいしたとはいえない。
ここから合成データは、もとのデータを守るという意味でもプライバシーテックということができる。
まとめ
- 合成データは、コンピューターのアルゴリズムによって生成された、限りなく実際のデータに近い人工データ。
- 合成データは、使えるデータ不足を補うため、そしてもとのデータのプライバシーを守るために有用的である。
- 合成データは、プライバシーを守るという意味で「プライバシーテック」の一つである。