人々はオープンAI(OpenAI)のChatGPTを使って、パブリッシャーのペイウォールを迂回している。だとしたら、パブリッシャーはどのようにして、購読者専用コンテンツをジェネレーティブAIチャットボットに吸い取られない […]
人々はオープンAI(OpenAI)のChatGPTを使って、パブリッシャーのペイウォールを迂回している。だとしたら、パブリッシャーはどのようにして、購読者専用コンテンツをジェネレーティブAIチャットボットに吸い取られないようしながら、購読ビジネスを守ることができるのだろうか?
米DIGIDAYがパブリッシャー、ペイウォール管理会社、コンサルタントに確認したところ、彼らの答えは、パブリッシャーが検索エンジンのコンテンツクローラーと同じように扱えるよう、ジェネレーティブAIチャットボットメーカーがパブリッシャーのコンテンツにアクセスしようとしているときにシグナルを送る必要性に集約される。
ChatGPTのようなジェネレーティブAIチャットボットは、検索エンジンのボットと似たような働きをし、クロールしてサイトから情報を収集し、検索結果に表示する。オープンAIは2023年7月にこの機能を停止したが、Googleの「バード(Bard)」とマイクロソフトの「Bing(ビング)」はまだ正式にボットの当該機能を停止していない。パブリッシャーは、ボットがコンテンツをクロールする機能をオフにできるが、Googleのような検索エンジンから来て、ページをインデックス化し検索結果に表示するボットとAIボットを区別するのは難しい。
Advertisement
2つのペイウォール
サブスクリプション管理と顧客データ分析を支援するマザーエコノミクス(Mather Economics)のデジタルコンサルティング部門マネージングディレクターであるアービッド・チフジェリ氏は、「DNC(do not crawl:クロール禁止)フラグがパブリッシャーによって設定されていても、その順守が任意である場合、(大規模言語モデルが)Webサイトをクロールするのを止めることはまず不可能だ。私の知る限り、統一された『クロール禁止』基準は存在せず、クローラーを選択的にブロックする技術も市場には出回っていない」と話す。
パブリッシャーが自由に使えるツールを理解するために、まずペイウォールを提供するための2つの主なメカニズムについて説明する必要がある。JavaScriptベースのペイウォールと、コンテンツデリバリーネットワーク(CDN)上に構築されたペイウォールだ。
JavaScriptベースのペイウォールは、読者の端末にページをロードし、続きを読むためにログインを要求するポップアップを重ねることで機能する。これは、ページに広告を重ねるのと同様の配信メカニズムだ。一方でCDNは、別のサーバーにページをロードし、読者がログインするまで端末にページをロードさせないことで機能する。CDNの例としては、クラウドフレア(Cloudflare)やAWS、独自のCDNを構築したズオラ(Zuora)の「ゼファー(Zephr)」などがある。
このふたつのペイウォール管理会社によると、対AIボットではCDNの方が強力だが、本当にブロックできるかはわからないという。ペイウォール技術は、「理論的には、AIクローラーへのアクセスをブロックすることができる。(中略)しかし、これはAI企業が一貫性のある既知のIPアドレスを使用する(そしてそれを変更しない)など、クローラーにそれとわかるフラグが立てられていることに依存する」と、サブスクリプションテクノロジープロバイダーであるズオラが所有するサブスクリプションプラットフォーム、ゼファーの購読者担当シニアディレクターのフェリックス・ダンチャック氏は述べる。
AIボットクローラに対する統一されたアプローチが必要
ペイウォールプラットフォームのピアノ(Piano)は、CDNでコンテンツをロックできる製品「エッジエクスペリエンス(Edge Experience)」を開発している。2023年9月には5社程度のクライアントを対象にベータ版が開始される予定だ。彼らのCDNは、「クライアントが特定のクローラーに対してブロックしたいユーザーエージェントを特定できる限り、ジェネレーティブAIのクローリングをブロックすることもできるだろう」と、ピアノの戦略担当シニアバイスプレジデントであるマイケル・シルバーマン氏は述べる。
本記事執筆のためにインタビューに応じた人々は、AIボットクローラに対する統一されたアプローチがパブリッシャー側に必要だと話した。その一例として、オープンAIのようなジェネレーティブAI企業と、コンテンツのライセンス契約を結ぶことが挙げられる。AP通信がオープンAIと7月に結んだような契約だ。
「AIクローラーを監視する最善の方法は、ボットのトラフィックを分析することだ」と、地方紙のフィラデルフィアインクワイアラー(The Philadelphia Inquirer)の最高技術および製品責任者であるマット・ボギー氏は言う。インクワイアラーはメーター制課金で、プレミアムコンテンツにはハードペイウォールを設けている。同氏は、インクワイアラーのペイウォールがJavaScriptで構築されているのか、CDNで構築されているのかについては明言を避けた。
ボットがどこから来ているのかを追跡するのは難しいため、インクワイアラーのようなパブリッシャーは、「小さな範囲のIPアドレスまたは単一のIPアドレスからのリクエストの急増を警告信号として探す」と、ボギー氏は言い、「しかし、それをリアルタイムで行うのは確かに難しい。(中略)多くの場合、その日一日のうちに、そうしたことに気づくことはない」と同氏は付け加える。
ワシントンポスト(The Washington Post)は4月、AIチャットボットの訓練に使われたWebサイトを示すリポートを発表した。ボギー氏によれば、そのデータセットにインクワイアラーのURLが含まれていたという。
[原文:Why protecting paywalled content from AI bots is difficult business]
Sara Guaglione(翻訳:藤原聡美/ガリレオ、編集:島田涼平)