ブルームバーグ(Bloomberg)、ニューヨーク・タイムズ(The New York Times)を含む多くのパブリッシャーがオープンAI(OpenAI)のウェブクローラーによる自社サイトへのアクセスをいち早くブロックし、コンテンツが収集され、大規模言語モデル(LLM)に利用されるのを阻止した。しかし、5人のパブリッシャー幹部によれば、この戦術が有効かどうかは議論の余地がありそうだ。
あるメディア企業のテクノロジー担当上級幹部は匿名を条件に取材に応じ、「これは象徴的な意思表示だ」と語った。
多様なコンテンツ配信が裏目に
オープンAIは8月、パブリッシャーはウェブクローラーGPTBotによるウェブコンテンツへのアクセスをブロックできるようになったと発表した。オリジナリティーAI(Originality.ai)によれば、以来、最もアクセス数の多い100サイトのうち26サイト(上位1000サイトのうち242サイト)がウェブコンテンツへのアクセスをブロックしたという。
しかし、パブリッシャーのコンテンツ配信モデルがこうした保護戦略を無意味なものにしているかもしれない。あるパブリッシャー幹部はDIGIDAYの取材に対し、合わせて8つのシンジケーションアプリ、ウェブサイトでコンテンツを配信していると述べている。コンテンツはすでに発見しやすくなっているため、オープンAIのウェブクローラーをブロックするという保護策は無駄な努力だったように感じられるとパブリッシャー幹部は口をそろえる。
前述のパブリッシャー幹部は、米国フロリダ州キービスケーンで9月に開催されたDIGIDAYパブリッシングサミットの非公開セッションで、「私は無駄な努力だったと思う。コンテンツがウェブクローラーに取り込まれ、学習に使われることは不可避だ」と語った。
パブリッシャーは、オープンAIのチャットボットChatGPTのようなジェネレーティブAIツールがLLMを訓練するため、ペイウォールを迂回(うかい)し、コンテンツを収集することを防ぐのに苦労してきた。オープンAIのウェブクローラーはブロックできるようになったものの、一部のパブリッシャー幹部は、それが自社のIPを守るのに十分だとは確信していない。
ガーディアン・メディア・グループ(Guardian Media Group)のパブリックポリシー担当ディレクター、マット・ロジャーソン氏は、「これは長期的な問題であり、短期的な解決策は存在しない」と話す。「これは、パブリッシャーがもう少しコントロールを取り戻し、さまざまな目的でコンテンツを収集する他の人々に対し、より多くのコントロールを求め始める兆候だ」。
Googleとマイクロソフトは耳を傾けている
オープンAIは、AIツールやシステムのLLMを訓練するためにウェブクローラーを使っているテクノロジー企業のひとつにすぎない。Googleやマイクロソフト(Microsoft)のウェブクローラーは、パブリッシャーのコンテンツをインデックス化し、Google検索やBingの検索結果に表示するのに不可欠なものだ。しかし、これらのウェブクローラーは、自社のLLMやAIチャットボットを訓練するためのコンテンツも収集している。ガーディアンのロジャーソン氏はこれらを「バンドル・スクレーパー」と呼ぶ。
前述のテクノロジー担当幹部は、「彼らはすべてを1つの大きな検索製品として取り扱っている」と話す。「彼らは『粒度の選択はできないが、オプトアウトの機会は与える』という感じだが、当然ながら、我々はすべてのウェブクローラーをオプトアウトしたいわけではない」。
ブルームバーグ(Bloomberg)、ニューヨーク・タイムズ(The New York Times)を含む多くのパブリッシャーがオープンAI(OpenAI)のウェブクローラーによる自社サイトへのアクセスをいち早くブロックし、コンテンツが収集され、大規模言語モデル(LLM)に利用されるのを阻止した。
しかし、5人のパブリッシャー幹部によれば、この戦術が有効かどうかは議論の余地がありそうだ。あるメディア企業のテクノロジー担当上級幹部は匿名を条件に取材に応じ、「これは象徴的な意思表示だ」と語った。
多様なコンテンツ配信が裏目に
オープンAIは8月、パブリッシャーはウェブクローラーGPTBotによるウェブコンテンツへのアクセスをブロックできるようになったと発表した。オリジナリティーAI(Originality.ai)によれば、以来、最もアクセス数の多い100サイトのうち26サイト(上位1000サイトのうち242サイト)がウェブコンテンツへのアクセスをブロックしたという。
Advertisement
しかし、パブリッシャーのコンテンツ配信モデルがこうした保護戦略を無意味なものにしているかもしれない。あるパブリッシャー幹部はDIGIDAYの取材に対し、合わせて8つのシンジケーションアプリ、ウェブサイトでコンテンツを配信していると述べている。コンテンツはすでに発見しやすくなっているため、オープンAIのウェブクローラーをブロックするという保護策は無駄な努力だったように感じられるとパブリッシャー幹部は口をそろえる。
前述のパブリッシャー幹部は、米国フロリダ州キービスケーンで9月に開催されたDIGIDAYパブリッシングサミットの非公開セッションで、「私は無駄な努力だったと思う。コンテンツがウェブクローラーに取り込まれ、学習に使われることは不可避だ」と語った。
パブリッシャーは、オープンAIのチャットボットChatGPTのようなジェネレーティブAIツールがLLMを訓練するため、ペイウォールを迂回(うかい)し、コンテンツを収集することを防ぐのに苦労してきた。オープンAIのウェブクローラーはブロックできるようになったものの、一部のパブリッシャー幹部は、それが自社のIPを守るのに十分だとは確信していない。
ガーディアン・メディア・グループ(Guardian Media Group)のパブリックポリシー担当ディレクター、マット・ロジャーソン氏は、「これは長期的な問題であり、短期的な解決策は存在しない」と話す。「これは、パブリッシャーがもう少しコントロールを取り戻し、さまざまな目的でコンテンツを収集する他の人々に対し、より多くのコントロールを求め始める兆候だ」。
Googleとマイクロソフトは耳を傾けている
オープンAIは、AIツールやシステムのLLMを訓練するためにウェブクローラーを使っているテクノロジー企業のひとつにすぎない。Googleやマイクロソフト(Microsoft)のウェブクローラーは、パブリッシャーのコンテンツをインデックス化し、Google検索やBingの検索結果に表示するのに不可欠なものだ。しかし、これらのウェブクローラーは、自社のLLMやAIチャットボットを訓練するためのコンテンツも収集している。ガーディアンのロジャーソン氏はこれらを「バンドル・スクレーパー」と呼ぶ。
前述のテクノロジー担当幹部は、「彼らはすべてを1つの大きな検索製品として取り扱っている」と話す。「彼らは『粒度の選択はできないが、オプトアウトの機会は与える』という感じだが、当然ながら、我々はすべてのウェブクローラーをオプトアウトしたいわけではない」。
これらのテクノロジー企業はパブリッシャーの懸念に耳を傾けている。Googleは7月、検索エンジンのウェブクローラーにアクセス可能なURLを伝えるrobots.txtファイルの代替案を検討中だと発表した。自社のIPがさまざまな文脈でどのように使われるかをパブリッシャーがもっとコントロールできるようにすることが目的だ。そして、9月28日、Google-Extendedという新しいツールが発表され、ウェブサイト所有者がGoogleのAIシステムやジェネレーティブAIチャットボットBardの訓練に使うデータの収集をオプトアプトできるようになった(パブリッシャー幹部5人への取材はこの発表の前に行われた)。
マイクロソフトは別の道を選んだ。同社は9月下旬、パブリッシャーがウェブページにコードを追加することで、LLMの訓練にコンテンツを使ってほしくない旨を伝えられるようになったと発表した(著作権タグのようなもの)。ウェブサイト所有者には2つの選択肢がある。タイトル、スニペット、URLのみをBingのチャットボットに表示させたり、AIモデルの訓練に使ったりできる「NOCACHE」タグ、チャットボットとAIモデルの訓練にコンテンツを一切使用できない「NOARCHIVE」タグだ。
「彼らはさらに粒度を増やすことを示唆している」とロジャーソン氏は話す。「現在、詳細を調べているところだ」。
ニューヨーク・タイムズは先手を打ち、8月、自社のコンテンツを機械学習やAIシステムの訓練に使うことを禁止する文言を利用規約に追加した。これにより、ニューヨーク・タイムズは自社のデータを使っている企業に対して法的措置を取ることができるようになった。
交渉の出発点
では、コンテンツを保護できないにもかかわらず、なぜパブリッシャーはオープンAIのウェブクローラーをブロックしているのだろう?
DIGIDAYの取材に応じたパブリッシャー幹部は交渉術と捉えているようだ。「ブロッカーを設置することは少なくとも(中略)パブリッシャーとしてオープンAIや他の企業と避けられない交渉を行うための出発点になる。これを武器に、もし合意に達することができればブロッカーを外すと言うことができる」と説明する。
パブリッシャーの保護策によって「データマイニングのライセンス市場」が生まれ、データを共有することで対価を得られる可能性があるとロジャーソン氏は述べている。オープンAIは7月にAP通信とライセンスパートナーシップを締結し、ライセンス料を支払い、AP通信のテキストアーカイブの一部をモデルの訓練に使うことになった。
しかし、すべてのパブリッシャーが大手テクノロジー企業とコンテンツの使用について交渉できるほど力があると感じているわけではない。
匿名希望の(2人目の)パブリッシャー幹部は、「私たちは力ずくでブロックできるほど大きな存在ではない」と話す。この幹部はまた、オープンAIのウェブクローラーをブロックすることが、GPTの使用に影響するかどうかもわからないと述べている。GPTはChatGPTのベースとなっているAI技術で、オープンAIは外部の開発者にライセンス供与できるようにしている。
「ウェブクローラーをブロックしたら、ツールの使用を禁止されないだろうか? ツールは動かなくならないだろうか? 全くわからない」と2人目のパブリッシャー幹部は首をかしげる。「おそらく答えを知る方法はあるのだろうが、膨大な調査が必要になるだろう」。
[原文:Why publishers are questioning the effectiveness of blocking AI web crawlers]
Sara Guaglione(翻訳:米井香織/ガリレオ、編集:分島翔平)