今、オンライン広告業界で「決定論的(Deterministic)」・「確率論的(probabilistic)」という言葉を耳にしない日はありません。ここにきて使用頻度が増えたのにはワケがあります。サードパーティCookieの規制です。いつもの一問一答形式で、紐解いていきましょう。
今、オンライン広告業界で「決定論的(Deterministic)」・「確率論的(probabilistic)」という言葉を耳にしない日はありません。
オンライン広告主やパブリッシャー、アドテク企業などでは以前から使われてきた用語ですが、ここにきて使用頻度が増えたのにはワケがあります。サードパーティCookieの規制です。Cookieレスへの移行のカウントダウンが始まった今、各社は最適な代替ソリューションの模索を迫られているのです。
無駄に専門用語を生み出すことについては定評があるアドテク業界ですが、今回のケースは違います。「決定論的」と「確率論的」のアプローチは、オンライン広告とはまったく関係ない公衆衛生や教育、リスク分析といったさまざまな分野で長年にわたり使われてきました。
Advertisement
「決定論的」・「確率論的」は内容と結びついた名称で、アドテク業界特有の略語ではないのです。いつもの一問一答形式で、紐解いていきましょう。
◆ ◆ ◆
ーーまず、決定論的データとは、ひと言でなんでしょう?
決定論的データは、「ユーザーから直接提供されたデータ」および「名前やメールアドレス」といった、正確かつ信頼できる形でユーザーを特定できるデータを指します。一般に認証データと呼ばれるものは、これに相当しますね。
ーーでは、確率論的データとは?
確率論的データは、その名の通り、推定に基づくデータです。デバイスのOSやIPアドレスといった「個別情報の集合」がこれにあたります。実際アドテクツールのなかには、こうした確率論的データに基づいてIDが作成されるものもあります。
ーー決定論的データは広告で、どう使われているのですか?
決定論的データからIDが作られ、オンラインユーザーやモバイルデバイスユーザーの識別に使われます。もちろん、これはウェブサイトやアプリ上における広告のターゲティングや測定を行うためです。一般的に、決定論的IDに欠かせないのはユーザー自身がログイン時に提供する名前やメールアドレス、電話番号といった情報となります。
ーーでは、決定論的データとファーストパーティデータは同じ?
それは場合によりますね。ブランドやパブリッシャーがユーザーから直接集めるファーストパーティデータのなかには、名前やメールアドレス、電話番号といった決定論的のデータもあります。ですが、ファーストパーティデータは、決定論的データとして集められもの以外の情報、たとえばウェブサイトでの行動履歴、閲覧した記事、購入した商品といった行動データなども含まれますから。
ーー決定論的データは、どのようにユーザーを識別するのでしょう?
決定論的データの識別は、「パブリッシャーや広告主の提供するメールアドレス」と「ログインしたユーザーのアイデンティティグラフやデータベースのメールアドレス」が一致する場合に成立します。あるいは、ふたつのエンティティ(実体)で認識されるIDが正確に一致する場合も、決定論的データの識別となります。ときには、3つの決定論的の情報をもって成立と見なす場合もありますね。たとえば、「1234」のIDのメールアドレスが「johndoe@johndoe.com」で、「6789」のIDのメールアドレスも「johndoe@johndoe.com」であれば、「1234」と「6789」は決定論的で一致したと見なされます。決定論的での識別が成立するには、最終的にデータフィールドの一致が必要となります。
ーーでは、確率論的データとは? 広告では、実際にどう利用されるのですか?
説明を始める前に、確率論的データが使われる理由は何でしょうか? 決定論的データの入手が難しいからです。ユーザーがログインしていないといった理由で、メールアドレスなどの決定論的データが利用できない場合は少なくありません。こういった場合、アドテクのシステムは決定論的データで識別できないのです。広告主がしばしば不満を覚えるマッチ率の低さは、基本的に決定論的データがリンクできないために生じるのです。
そこで、確率論的データの手法で文字通りユーザーの推定を試みることになります。実際にはどのように推定するのでしょうか? 一番簡単なのが、正しい「可能性がある」IDを割り当てることです。つまり、「ユーザーをできるだけ正確に推定しようとベストを尽くす」手法とも言えますね。
これが使われるケースとして挙げられるのが、たとえばパブリッシャーがログインしていないユーザーを識別したい場合や、デマンドサイドプラットフォーム(DSP)およびアイデンティティグラフのプロバイダがサイトの訪問者について、既存のユーザーか否かを判断したい場合などです。さまざまな確率論的データを活用し、識別が行われることになります。
ーー企業は、IDの割り当てを確率論的と決定論的のどちらで行ったのか明らかにしているのでしょうか?
ユーザー識別サービスを提供しているIT企業は、クライアントに対して技術文書でID同士のリンク方法を伝えています。だがID自体が決定論的データによるものなのか、確率論的データによるものなのかは明かしていません。なかには両方を取り入れた「ハイブリッド型」でマッチングを行っている企業もあります。
ーー確率論的データでは、どのような情報が利用されるのですか?
一部のサービスプロバイダは、確率論的データの識別に使う情報を「ソフト信号」または「非固有のデバイス特性」と呼んでいます。具体的には、IPアドレスやタイムスタンプ、ブラウザのバージョン、画面解像度といった情報ですね。
ーーフィンガープリントは確率論的データに含まれるか?
ブラウザフィンガープリントもさまざまなデータを駆使してユーザーを特定する技術ですが、アドテク企業やサービスプロバイダは、確率論的データとは違うと強調しています。背景には、フィンガープリントを避ける動きが広まって事情があるからです。2019年に、GoogleはChromeでフィンガープリントの使用を規制すると発表しており、アドテクベンダーに対し、ユーザー識別のためのフィンガープリントの使用を禁じています。SafariやFirefoxなど、ほかのブラウザでもフィンガープリント規制が相次いでいます。
だからこそ、確率論的データの識別を提供・利用している企業は、さまざまな点でフィンガープリントとは違うと主張しているのです。しかし実際のところでは、その違いは微々たる点に過ぎません。
たとえば、フィンガープリントは主に広告主の側で行われるという主張があります。広告主やアドテク企業が、ユーザーやパブリッシャーについての知識や承認なしに永続的な識別データを得たい場合などです。一方で、フィンガープリントはパブリッシャーがIDを作成したいときに使用するため、パブリッシャーの側で行われるという意見もあります。さらにフィンガープリントはデバイスレベルでしか実行されない点が違うと主張する企業もあります。
あるアドテク企業の幹部は米DIGIDAYの取材に対し、匿名を条件に次のように打ち明けています。「ただの言葉遊びだ。正直、こういうのには怒りすら覚える。大半のアドテク企業やユーザー識別のサービスプロバイダー、確率論的のIDは、フィンガープリント技術を基盤としている。単に呼び名を変えただけだ」。
[原文:WTF is the difference between deterministic and probabilistic identity data?]
KATE KAYE(翻訳:SI Japan、編集:長田真)
Illustration by IVY LIU