【一問一答】「 連合学習 」とは?:プライバシーを重視したウェブ広告技術

今日のパブリッシャーと広告主にとって、もっとも緊急かつ避けられない問題は、サードパーティのCookieに依存せずにデジタル広告のエコシステムを再構築する方法を見つけ出すことです。その方法を探る過程で、数多くの回避策や代替技術が登場しました。

Googleは、ウェブの発展を支えてきた広告モデルを維持するため、Safari(サファリ)、Firefox(ファイヤーフォックス)、Brave(ブレイブ)などのプライバシーを重視したブラウザや、欧州とカリフォルニアの厳格なプライバシー規制に倣って、ユーザーを追跡する新たな手法の開発に取り組んでいます。なかでも業界を不安に駆り立てているのは、Chrome(クローム)が2020年2月からサードパーティCookieの使用を制限した場合の影響です。というのも、スタットカウンター・グローバル・スタッツ(StatCounter Global Stats)によれば、Chromeは世界のブラウザシェアの65%を握っているからです。

Googleが開発している主な手法のひとつが、FLoC(Federated Learning of Cohorts:コホートの連合学習)です。これは、ブラウザが今後もウェブ上でインタレスト(関心)ベースの広告を配信できるようにするための技術で、各ユーザーの行動を追跡するのではなく、コホート(類似オーディエンスの集団)の行動を観測します。デジタルマーケティング関連の新語を解説する「一問一答」シリーズ。今回は、その基本をご説明しましょう。

――そもそも、これはどういうものなのでしょうか?

簡単にいえば、連合学習は機械学習を使用することで、個人を特定できるデータを共有することなく、堅牢なモデルを構築します。誰もがプライバシーを目下の最大の問題だと考えているなかで、これは前進といえるでしょう。

詳しく見ていくと、このシステムは機械学習を利用して、分散環境にある複数のデバイスでアルゴリズムを訓練します。その際、データをデバイス間で共有したり転送したりすることはなく、常にローカル環境に保存するため、プライバシー規制への準拠がはるかに強化されます。これが、すべてのデータをひとつのサーバーにアップロードする集中型の機械学習システムと異なる点です。また、分散学習システムともいくつかの点で違いがあります。たとえば、分散学習ではすべてのデータセットが同一であることが前提となりますが、連合学習システムでは異なるさまざまなデータを使用できます。

――では、Googleはどのように連合学習を使用する計画なのですか? また、なぜいまこれを行うのでしょうか?

Googleが数カ月前に提案したFLoCは、機械学習アルゴリズムを使用することで、ブラウザ履歴などの行動データに基づいてユーザーを関心別のグループ(フロック)に振り分けます。そして、自己学習によってモデルを構築し、その堅牢性を高めます。その際に利用するのは、個々のユーザーのデータではなく、数千人単位の集団であるフロックのデータであるため、プライバシー関連の規制により準拠しているとみなされます。エージェンシーや広告主は、このモデルを活用することで、たとえば、金融関係やラグジュアリーブランドのクライアントに最適なオーディエンス層を特定できるようになります。

――なるほど。では、新しい点はなんでしょうか?

広告以外の用途では、以前からこのようなシステムが使われていました。FLoCの初期の例として、Googleのキーボードアプリ「Gboard」(Gボード)が挙げられます。このアプリでは、予測変換を行うためにスマートフォンのキーボードを訓練しています。しかし、ユーザーがスマートフォンで入力したすべてのデータを自社サーバーにアップロードして、適切な単語を推測できるようにアルゴリズムを訓練することは、プライバシー関連の規制によって不可能でした。それに、ユーザーの携帯電話からデータを収集すれば、扱いきれないほど大量のデータが集まってしまうことになったでしょう。また、Facebookも「自己教師あり学習(self-supervised learning)という、連合学習とは異なるものの、同様の機械学習技術を利用して自社アプリを改善したり、パブリッシャーや広告主向けの製品に活かしたりしています。この大きな利点は、最初からプライバシーに対処できることにあります。

――それはよさそうですね。一方で問題点もあるのでしょうか?

いくつかあります。Googleは以前から、プライバシーを重視したウェブの広告モデルを構築するための提案を行い、広告業界から意見を集める取り組みを続けています。しかし、Googleが開発した人工知能(AI)モデルの主導権をGoogleが握り続けることになると、批判する人たちもいます。実際、GoogleのFLoCは、悪意のある攻撃者に機密データへのアクセス権を奪われる可能性があるとして非難を浴びています。Googleの提案では、ウェブユーザーのタイプを識別できるフロック名をブラウザが受け取り、そのフロック名をユーザーがHTTPヘッダーとして共有します。そのため、そのユーザーがウェブ上でやり取りするすべての人に、この情報が共有されてしまうのです。

――ほかの業界についてはどうですか?

連合学習システムは今後さらに増えるでしょう。防衛、通信、医療など、広告以外の業界でも利用されています。また、自動運転車の訓練への活用も模索されています。連合学習では、(これまでのクラウドベースの機械学習のように)大量のデータを転送する必要性がないため、処理速度を高めることができるからです。

Lucinda Southern(原文 / 訳:ガリレオ)