- パブリッシャーは、オープンソースの大規模言語モデル(LLM)を使うべきか、民間企業開発のLLMを使うべきかの選択肢があり、それぞれ利点・欠点が考えられる。
- オープンソースは初期コストやデータの透明性についてメリットがあるが、自社開発には専門性のあるデータサイエンティストやエンジニアが必要となってくる。
- 一方で民間企業に開発を委託する場合は、自社の貴重なリソースを割かないで済む。しかし、問題は共有するデータの主導権をどこに置くかということだ。
パブリッシャーがニュースルームで使うジェネレーティブAIツールを開発する際、その基盤となる大規模言語モデル(LLM)には基本的に、オープンソースを使うか、民間企業開発のLLMを使うかという2つの選択肢がある。
オープンAI(OpenAI)のChatGPTやGoogleのバード(Bard)のようなチャットボットは、非公開のプロプライエタリLLMを使用して構築されている。LLMとは大量のデキストデータを学習し、文章生成を行うシステムのことだ。
オープンソースとは、インターネット上で誰でも自由に使用したり改変したりできるコンピュータコードをいう。オープンソースのLLMを活用すれば、パブリッシャーはコードをダウンロードし、独自のデータを使って特定タスク向けに基盤モデルをファインチューニングすることも、当初の学習に使用されたデータを確認して、潜在的な制限や偏りを調べることもできるのだ。
オープンソースのLLMが最適か?
7月、メタ(Meta)は自社開発の大規模言語モデル「Llama 2(ラマツー)」のコードを公開した。これにより、パブリッシャーを含むユーザーは、Llama 2モデルを無料で使用し、独自にカスタマイズしたチャットボットの開発などができるようになった。
「オープンソースはイノベーションを促進する。多くの開発者が新しい技術を用いてさまざまな開発を行うことができるからだ」と、メタのザッカーバーグ最高経営責任者(CEO)はFacebookに投稿している。「ソフトウェアがオープンであれば、それは安全やセキュリティの改善にも貢献する。より多くの人がそれを精査し、潜在的な問題を特定したり、修正したりできるからだ」。
ただし、無料で利用できるにもかかわらず、自社のニュースルームで使うジェネレーティブAIツールの開発にあたり、すべてのパブリッシャーがオープンソースのLLMを最適なモデルと判断するわけではない。本記事では、オープンソースLLMの活用をめぐる賛否両論を紹介する。
オープンソースLLMの活用を支持する意見
Llama 2のようなオープンソースモデルは無料で利用できる。対照的に、GPTやバードのような非公開のプロプライエタリLLMは従量制で課金される。
AIを活用してリアルタイム情報を収集するアプライドXL(AppliedXL)の共同設立者で、コンピュータジャーナリストのフランチェスコ・マルコーニ氏は、「オープンソースモデルなら、プライベートモデルの使用にかかる初期費用を回避しつつ、ジェネレーティブAIを活用したツールやプロダクトの開発を試みることができる」と説明する。
アプライドXLはジャーナリスト向けの言語モデル「AXL-1」をオープンソースで構築する道を選択したが、マルコーニ氏はその理由として、「初期コストがかからないこと」「オープンソースモデルならではの透明性」「リアルタイムデータとの接続性」を挙げた。具体的には、Amazonのクラウドサービスが提供するAWSで、Llama 2や「ファルコン(Falcon)」などのオープンソースモデルをファインチューニングした。
アプライドXLはこのモデルを活用して、米紙ボストングローブ(Boston Globe)が運営する健康、医療、科学に特化したニュースサイト「STAT(スタット)」と共同で、臨床試験のリアルタイムデータを分析、特定、要約するツールを開発した。このツールはデータを篩(ふるい)に掛けて選別し、ジャーナリストが設定したパラメータに基づいて、注目に値する臨床試験の最新情報を特定し、そのネタを記事化するという。
マルコーニ氏はオープンイノベーションのメリットについて、「多くの人々が協力して、モデルの改善に取り組むため、より深い精査を促し、偏りや透明性などの潜在的な問題に対処できる」と説明している。[続きを読む]
- パブリッシャーは、オープンソースの大規模言語モデル(LLM)を使うべきか、民間企業開発のLLMを使うべきかの選択肢があり、それぞれ利点・欠点が考えられる。
- オープンソースは初期コストやデータの透明性についてメリットがあるが、自社開発には専門性のあるデータサイエンティストやエンジニアが必要となってくる。
- 一方で民間企業に開発を委託する場合は、自社の貴重なリソースを割かないで済む。しかし、問題は共有するデータの主導権をどこに置くかということだ。
パブリッシャーがニュースルームで使うジェネレーティブAIツールを開発する際、その基盤となる大規模言語モデル(LLM)には基本的に、オープンソースを使うか、民間企業開発のLLMを使うかという2つの選択肢がある。
オープンAI(OpenAI)のChatGPTやGoogleのバード(Bard)のようなチャットボットは、非公開のプロプライエタリLLMを使用して構築されている。LLMとは大量のデキストデータを学習し、文章生成を行うシステムのことだ。
Advertisement
オープンソースとは、インターネット上で誰でも自由に使用したり改変したりできるコンピュータコードをいう。オープンソースのLLMを活用すれば、パブリッシャーはコードをダウンロードし、独自のデータを使って特定タスク向けに基盤モデルをファインチューニングすることも、当初の学習に使用されたデータを確認して、潜在的な制限や偏りを調べることもできるのだ。
オープンソースのLLMが最適か?
7月、メタ(Meta)は自社開発の大規模言語モデル「Llama 2(ラマツー)」のコードを公開した。これにより、パブリッシャーを含むユーザーは、Llama 2モデルを無料で使用し、独自にカスタマイズしたチャットボットの開発などができるようになった。
「オープンソースはイノベーションを促進する。多くの開発者が新しい技術を用いてさまざまな開発を行うことができるからだ」と、メタのザッカーバーグ最高経営責任者(CEO)はFacebookに投稿している。「ソフトウェアがオープンであれば、それは安全やセキュリティの改善にも貢献する。より多くの人がそれを精査し、潜在的な問題を特定したり、修正したりできるからだ」。
ただし、無料で利用できるにもかかわらず、自社のニュースルームで使うジェネレーティブAIツールの開発にあたり、すべてのパブリッシャーがオープンソースのLLMを最適なモデルと判断するわけではない。本記事では、オープンソースLLMの活用をめぐる賛否両論を紹介する。
オープンソースLLMの活用を支持する意見
Llama 2のようなオープンソースモデルは無料で利用できる。対照的に、GPTやバードのような非公開のプロプライエタリLLMは従量制で課金される。
AIを活用してリアルタイム情報を収集するアプライドXL(AppliedXL)の共同設立者で、コンピュータジャーナリストのフランチェスコ・マルコーニ氏は、「オープンソースモデルなら、プライベートモデルの使用にかかる初期費用を回避しつつ、ジェネレーティブAIを活用したツールやプロダクトの開発を試みることができる」と説明する。
アプライドXLはジャーナリスト向けの言語モデル「AXL-1」をオープンソースで構築する道を選択したが、マルコーニ氏はその理由として、「初期コストがかからないこと」「オープンソースモデルならではの透明性」「リアルタイムデータとの接続性」を挙げた。具体的には、Amazonのクラウドサービスが提供するAWSで、Llama 2や「ファルコン(Falcon)」などのオープンソースモデルをファインチューニングした。
アプライドXLはこのモデルを活用して、米紙ボストングローブ(Boston Globe)が運営する健康、医療、科学に特化したニュースサイト「STAT(スタット)」と共同で、臨床試験のリアルタイムデータを分析、特定、要約するツールを開発した。このツールはデータを篩(ふるい)に掛けて選別し、ジャーナリストが設定したパラメータに基づいて、注目に値する臨床試験の最新情報を特定し、そのネタを記事化するという。
マルコーニ氏はオープンイノベーションのメリットについて、「多くの人々が協力して、モデルの改善に取り組むため、より深い精査を促し、偏りや透明性などの潜在的な問題に対処できる」と説明している。
自社開発にはデータサイエンティストやエンジニアが必要
パブリッシャーはオープンソースLLMを社内で運営することもできる。つまり、パブリッシャー保有のデータを大手IT企業と共有し、自社のコンテンツでこうした企業のLLMを訓練してやる必要もないということだ。
フェリックス・サイモン氏はオックスフォードインターネットインスティテュート(Oxford Internet Institute)のコミュニケーション研究者で、AIがジャーナリズムに与える影響について研究する人物だが、同氏も「オープンソースのモデルであれば、自社の機微データを外部のシステムに送信することを回避し、セキュリティとプライバシーの強化につながる。また、大手IT企業のモデルの学習や改善にこうした機微データを使われることもない」と述べている。
とはいえ、自前でLLMを構築できるパブリッシャーは多くない。コストの問題に限らず、モデルを開発し、保守する専任のデータサイエンティストやエンジニアを採用する必要があるからだ。ブルームバーグ(Bloomberg)は自社開発を選択した数少ないパブリッシャーのひとつであり、自社の金融データでブルームバーグGPT(BloombergGPT)モデルをトレーニングしている。しかし、ChatGPTを支える規模のLLMを開発し、運用するには莫大なコストがかかる。
無料で使用できるオープンソースLLMが次々と公開されるなか、オープンAIは競合の追い上げをひしひしと感じているに違いない。技術系ニュースサイトのジ・インフォメーション(The Information)は5月に、オープンAIがオープンソースモデルの公開に向けて準備を進めていると報じた。ちなみに、同社のGPTモデルの最初の2つのバージョンはオープンソースとして公開された。
オープンソースLLMの活用を否定する意見
「オープンソースLLMをめぐっては多くのイノベーションが起きている。その反面、パブリッシャーがオープンソースモデルを活用して独自のツールを開発し、自力で(運用に必要な人材とコンピュータの処理能力を自前で用意して)保守運用することの是非は現時点では不明と言わざるを得ない」。そう語るのは、LLMやジェネレーティブAIの導入をめざすパブリッシャーの支援を目的として、ストーリーフロー(StoryFlow)を創設したデヴィッド・キャスウェル氏だ。同氏はさらに、「オープンAIも最新版のGPT-4モデルで改良と機能拡充を行っているのだからなおさらだ」と続けた。
キャスウェル氏は、「一般的な能力に関する限り、ほかのどのLLMもGPT-4に遠く及ばない」と米DIGIDAYに語っている。一方、ガネット(Gannett)のシニアバイスプレジデントでプロダクト部門を統括するレン・トュリアノ氏は、オープンソースLLMを提供する企業とパブリッシャーのあいだにサービス契約がないことに言及し、「こうしたLLMからジェネレーティブAIのツールやプロダクトを開発する場合、すべてパブリッシャーの自己責任で行うことになる」と述べている。
また、キャスウェル氏も「クラウドコンピューティングが登場して間もない頃と、どこか似ているところがある。当時も、多くの大手報道機関が独自のクラウドを欲しがったが、結局、純粋に実用性の高さからAWSを使うことになった」と指摘した。
共有するデータの主導権をどこに置くか
オープンソースモデルを基盤としてツールを構築するよりも、ジェネレーティブAI企業と契約して、彼らが所有するプロプライエタリLLAを活用するパブリッシャーが増えている。ただし、共有するデータについて主導権を握るには、条件交渉が必要不可欠だ。
オープンAIとAP通信(Associated Press)は7月、AP通信のデータをオープンAIにライセンス供与する契約を結んだ。この契約により、オープンAIはAP通信の過去記事をLLMのトレーニングに活用できるようになる一方、AP通信はオープンAIの技術とリソースへのアクセスを獲得する。AP通信の広報によると、同社のテキストアーカイブの一部をオープンAIに有料で提供する契約というが、金銭的な条件については開示されなかった。
ガネットはプロプライエタリLLMを提供するコーヒア(Cohere)と提携を結んだ。非公開のLLMを提供する企業と直接契約を結ぶことで、ガネットのようなパブリッシャーは「自分たちが所有する学習データを自社の管理下にとどめ置くことができる」とトュリアノ氏は話す。ガネットの広報によると、コーヒアとのライセンス契約では、ガネットがコンテンツの所有権と管理権を留保するという。
オープンソースを称するLLMがすべてオープンソースであるとは限らない
本記事の執筆にあたって取材したパブリッシャーの幹部や研究者のなかには、メタのLlama 2はそもそも真のオープンソースモデルではないと主張する者もいた。というのも、メタはその適正利用規約(AUP)のなかで、利用にまつわる条件を定めているからだ。さらに、Llama 2モデルの訓練に使用されたデータも開示されていない。
これはパブリッシャーのニュースルームがAIシステムの偏りを発見するための鍵となるデータである。(米紙ワシントンポスト[Washington Post]は4月に、メタのLlama 2を含むAIチャットボットの訓練に使われたWebサイトについて報じている)。
オックスフォードインターネットインスティテュートのサイモン氏はこう語る。「オープンソースコミュニティや外部のエンジニアがモデルの改良に参加してくれるという点で、オープンソースは大手IT企業にとってメリットがある。実際、メタはこの仕組みで自社のツールを改良できる。膨大な経営資源を投じることなく、オープンAIやGoogleに追いつくことができるのだ」。
[原文:The case for and against open-source large language models for use in newsrooms]
Sara Guaglione(翻訳:英じゅんこ、編集:島田涼平)