【一問一答】「 ディファレンシャル・プライバシー 」とは? : プライバシーを保護する統計テクニック

広告業界は、個人情報のプライバシーに関するアプローチを再検討しています。そして、人々のプライバシーを侵害せずにデータを収集する方法を探し求めています。

その代替案として検討されているもののひとつが、「ディファレンシャル・プライバシー(differential privacy:差分プライバシー)」と呼ばれるもの。これは統計上のテクニックで、企業たちは個人のプライバシーを保護しながら、ユーザーの習慣やデータの集まりをシェアすることができるものです。

デジタルマーケティングの未来に示唆を与える用語をわかりやすく説明する「一問一答」シリーズ。今回は、ディファレンシャル・プライバシーの仕組みを取り上げます。

――そもそも、ディファレンシャル・プライバシーとは、なんでしょう?

マイクロソフト(Microsoft)が先駆者として開発してきたデータ集約プロセスのひとつです。現在では、AppleやGoogleといった、ほかの大手テック企業たちにも使われているものです。ひと言で表すと、ディファレンシャル・プライバシー・アルゴリズムがランダムなデータをデータセットのなかに挿入することで、個々人のプライバシーを保護するものです。

データがサーバーに送られて匿名化される前にディファレンシャル・プライバシー・アルゴリズムは、ランダムなデータをオリジナルのデータセットに加えます。ランダムなデータが加わったことで、広告主たちが獲得するデータセットは若干のマスクがかけられた状態になり、そのため厳密な正確さを失うのです。

――つまり…それはどういう仕組みなんですか?

広告主たちは事実上、回答データの近似値を、プライバシーを侵害せずに得ることができます。たとえば、Facebook広告を見た200人中150人がクリックしてサイトに移動したという事実を、広告主はディファレンシャル・プライバシー・データを通して知ることができますが、それがどの150人かはわからない、といった具合です。確実性を持って個人を特定することが事実上不可能になるため、データの持ち主であるユーザーにとっては、「自分ではない」と否認する根拠を与えることになるわけです。

――それは、データが正確でなくなる…ということ? 違います?

人々がキャンペーンにどのように反応したかの全体像を、広告主が完全に理解することはなくなります。そのため、プライバシーと正確性のあいだでのトレードオフは確実に存在しているでしょう。しかし、このトレードオフを、必要な犠牲として受け入れる広告主はいくつも存在しています。ランダムなデータがメインのデータセットに挿入されなかった場合、広告にエンゲージした個人が誰かを特定する事は簡単です。この場合、もしも一般データ保護規則(GDPR)に基づいた適切なユーザーの同意が得られていなかった場合、データベース自体が使えなくなってしまいます。

――何がこの傾向を後押ししているのでしょう?

広告主、パブリッシャー、テック・プラットフォームたちによる業界全体の関係団体によるグループ、トゥルース・イン・メジャーメント(Truth in Measurement)は、この統計テクニックがプラットフォーム間を超えた計測を支えられるかもしれない、と検討しています。このグループに参加している、タイソン・フーズ(Tyson Foods)のメディア・イノベーション部門ディレクターを務めるトレース・ラットランド氏は、この方法論が成功するかどうかは倫理的な命題に関わってくると言います。それは、「消費者たちは、我々がデータをこの方法で活用することを予期できており、また問題がないと感じるだろうか」というものです。まさに、この質問に対する答えを突き詰めるなかで、データクリーンルームにおいてデータがシェアされることを、ディファレンシャル・プライバシーが承認できるかどうか、検討を行う流れになったわけです。

――複数のプラットフォームを横断した計測の助けになるのは、なぜ?

データクリーンルームが複数のパーティによる計測をサポートできるのかどうか、多くの人が議論しています。そのなかでひとつの議題となっているのは、誰が実際にその利益を得ることになるのか、という点です。ライバルと同じ場所でデータをシェアすることに対してメディアセラーたちは懸念を持っているのです。また、広告主たちも、これらの環境に対して、自分たちが所有権を持っているようには感じられていません。そのため、何が加えられているのか、怪しむ気持ちも生まれてしまいます。

データ匿名化プロセスのコントロールは、通常メディアセラーによって行われていますが、ディファレンシャル・プライバシーによって、そのコントロールを参加者すべてが、一定に持っていると感じるはずです。そのため、上記の怪しむ気持ちも軽減される可能性はあります。広告主からすると、キャンペーンのパフォーマンスがどれほどであったかを正確に反映するデータセットを得ることができ、またメディアセラーは価値あるターゲティングデータに別れを告げなくても良いのです。

先月、トゥルース・イン・メジャーメントが主催したイベントのひとつにおいて、この問題が話題となりました。「データクリーンルームが導入されることで、キャンペーンのデータを広告主たちは、ディファレンシャル・プライバシー・ベースのログファイルとして受け取ることになる、というのがその場での合意だった」と、サンダー・エクスペリエンス・クラウド(Thunder Experience Cloud)のCEOであるヴィクター・ウォング氏は語ります。サンダー・エクスペリエンス・クラウドは、トゥルース・イン・メジャーメントでリーダー的な役割を担っている企業です。

――広告主なら誰でも実施できるものですか?

理論上は、広告主なら誰でも自分のアルゴリズムを開発して、ディファレンシャル・プライバシーを実施できます。しかし、開発し、それから管理することは、非常に複雑になるため、お勧めできません。事実、ダイソン・フーズのような広告主たちはむしろ、他社と協力して、より大きなデータセットに使うことができるディファレンシャル・プライバシー・テクノロジーのバージョン開発の資金調達をしたいと思っています。

「ディファレンシャル・プライバシーのようなプロジェクトが軌道に乗るとしたら、バイイング側でも協力して取り組む必要がある。広告主だけでこれを行うことはできない」と、ラットランド氏は言います。同氏は、さまざまなバージョンにそれぞれ対応するのではなく、業界で協力して、統一されたアルゴリズムを実現する方が良いと考えています。「複数のプラットフォームを横断した計測に広告主たちだけで取り組もうとすると、マーケットにおけるウォールド・ガーデンに影響を与えられるほどにはスケールしないのが、これまでの流れだ」。

――ほかにデメリットはあるのか?

ディファレンシャル・プライバシーは、小さなデータセットにはそれほどうまく機能しません。データセットが小さければ小さいほど、ランダムデータが追加されることでデータが不正確になりやすくなるからです。さらに、実際のリアルな、匿名化されたユーザーのデータを報告することと比べると、大きなスケールでディファレンシャル・プライバシーを行うことは、比較的困難になります。

Seb Joseph(原文 / 訳:塚本 紺)