「Photo Discovery」はレコメンド精度を飛躍的に向上させる:popIn CEO 程涛氏

人々がマルチデバイスを活用し、多量の情報に触れるいま、より読者の興味・関心にマッチした記事を、最適なタイミングで届けることが求められている。コンテンツと読者のマッチングの鍵になるのがレリバンシー(関連性)だが、コンテンツレコメンデーションpopIn(ポップイン)は、これまでとは異なる新しいアプローチを提示する。それはディープラーニングによる画像認識を活用したおすすめだ。

popInは1月31日にディープラーニングによる画像レコメンド「Photo Discovery」を発表した。記事中の「画像」を解析して、ユーザーに対し関連性の高いコンテンツをレコメンドする仕組みだ。同サービス提供の背景や、今後パブリッシャーに対して提供する独自価値について、同社 代表取締役 程 涛氏に聞いた。

◆ ◆ ◆

――今回の「画像レコメンド」について聞く前に、コンテンツとしての「画像」の重要性について聞かせてください

我々popInのミッションは、「メディア価値の証明」にあります。そして、パブリッシャーにとって『読まれる記事』をレコメンドするためのコンテンツレコメンデーションの独自技術が、2014年にリリースした「READ」です。

これは、単に記事を開いただけでなく、読者が「正味のコンテンツ」をちゃんと読んだかどうかを可視化できます。具体的には、記事を構成するテキストや画像などの要素から、テキストを自動的に解析し、滞在時間や読了率、離脱率、行動履歴/ソーシャルなどと掛け合わせて、もっとも興味関心に沿った記事をおすすめし、回遊を手助けします。

READにより記事がどれだけ読了されたかという点は可視化されました。しかし、記事内の画像については、いままで認識できたのはサイズだけで、画像の「意味」は認識できませんでした。

しかし、画像はテキストより読者のインテント(意図)を理解するのに役立ちます。インスタグラムを見ればわかるように、ユーザーはインターネット上の体験のなかで画像を重視しています。パブリッシャーのウェブサイトを訪れ、記事を選択する際には、無意識にサムネイル画像を選別し、自分の興味・関心と合致するものをすくい取ります。特に若年層は認知がイメージに重みを付けた形で発達しているかもしれません。

Yahoo! スマホ版のUIがタイムライン型になり、タイトルとサムネイル写真がタイムライン形式で一覧表示されるようになりました。タイトル(テキスト)と写真の持つ意味はさらに大きくなっていくでしょう。

――そこでAIによる画像認識を活用しようということですね

画像の中身が分かれば、コンテンツとしての記事の分析精度が高まり、そのコンテンツを見ているときの意図などユーザー理解が深まります。これまでは、画像の中身を分析するために、画像タグに付与されたディスクリプションタグを使っていました。しかし、これは必ずしも正しく画像の内容を反映していない場合がありました。

ディープラーニングの応用のなかでも、画像認識は発達が著しいのです。すでに精度ではAIは人間を上回っています。画像認識を活用し、READを進化させる形で開発したのが「画像レコメンド」です。

――「画像レコメンド」の仕組みを教えてください

画像の中身を解析して、関連性のある画像をレコメンドする仕組みです。従来のコンテンツレコメンデーションが、テキスト内容で関連性を見ていたのに対し、今回のサービスは、記事に配置された画像を認識し、関連性のある画像と記事をレコメンドします。

画像の内容を掴めるのが特徴です。裏側の解析部分は、たとえば、海を撮影した風景写真があったときに、分析結果は「自然風景の海:99%」「非人造的なもの:70%」などのように、複数の候補のなかから確率的に推測します。

たとえば、記事内画像のなかで人が抱えている「ぬいぐるみ」すら認識することができます。ユーザーが情報に判断を下す主要な材料である画像の情報を知ることで、レコメンドの関連性を大きく高めることができます。

画像のマッチングに関する切り口にはいくつかあります。たとえば、写真の「カテゴリー」「キーワード」「印象」(ポジティブ/ネガティブ)、そして「アダルトかそうでないか」などで、我々はこのうち、「カテゴリー」「キーワード」を使ってマッチングを行っています。

――モバイルの普及により、ユーザーの情報消費スタイルも変わりました。デスクトップWebに比べ、モバイルWebでは直感的に情報を取捨選択し、あらゆる場所を動き回ります

スマートフォンの操作を見ていると、写真を見て、直感的に操作していることが分かります。情報に到達する時間が短縮され、ユーザーは、コンテンツが自分の興味・関心にマッチした場合は熟読しますが、そうでない場合はすぐに離脱してしまいます。

写真だけを見ているユーザーも多く、多いときで半分、通常で3割くらいが、写真だけ見て離脱しています。これは、文章を熟読して理解するという消費スタイルとは対極にあるものです。

ですから、「画像レコメンド」は、READの次の技術として位置づけられます。多くのコンテンツレコメンデーションは、基本的にテキストベースか、ユーザーの行動ベースで興味・関心を解析しています。我々は、写真そのものの内容を理解し、より、ユーザーのニーズに沿った、精度の高いレコメンドサービスを提供したいと考えています。

2L7A4915

「我々popInのミッションは『メディア価値の証明』にある」と話す程CEO。

当初は自社開発をめざしていましたが、開発に際して大きくふたつの課題がありました。ひとつ目は、サーバーの問題です。我々は、オープンソースで提供されるディープラーニングライブラリを用いて開発を試みたのですが、ディープラーニングによる画像認識の精度を高めるためには、ご存じの通り、多数の高機能のサーバーを活用した大規模な並列処理が必要です。これはスタートアップには難しい。

ふたつ目は、ニューラルネットワークを学習させるためのデータ量です。精度を高めるために正確なタグがついた、良質な画像データが大量に必要です。しかし、我々のようなベンチャー企業は、自社で保有するデータに限りがあります。

つまり、以上の2点を満たせるグローバルのテクノロジー企業数社にだけ画像認識テクノロジーを進歩させる機会があるということです。

我々はBaiduからディープラーニング技術の提供を受けサービスを開発しました。これはほとんどのテクノロジー企業にはできないことです。

――Baiduの人工知能研究が生きているのですね

AI技術をコアエンジンに取り込もうという今回のサービスは、Baiduの戦略に沿っています。海外メディアの記事で、AIの活用に積極的な企業としてFacebook、Google、Amazon、そしてBaiduが挙げられています。特にアジアで最先端を行くBaiduのAI技術を活用していけるのは当社にとって大きなアドバンテージです。

Baiduは人工知能分野に強く投資しています。シリコンバレーの人工知能研究所に人工知能研究の第一人者として知られるスタンフォード大学のアンドリュー・ング氏をトップに迎え、Bing開発者の米マイクロソフトの元幹部、陸奇氏をグループ社長兼最高執行責任者(COO)に迎えました。同社は自社の画像検索に画像認識を取り込んでおり、検索エンジンで培ったデータベースに画像が4万以上のカテゴリーに分かれて蓄積されています。

我々はパブリッシャー向けにその恩恵を提供していきたいです。第1弾は画像解析の領域に注力していき、今後も、メディアのAI活用コストをどんどん下げていくようなサービスをリリースしていきたいです。

――最後に将来のロードマップを教えてください

将来的には、メディアが保有するユーザーの属性・行動データで、AIを学習させることにも取り組んでいきたいです。たとえば、メディアに訪問したユーザーが、どんなコンテンツに時間を費やしたかを可視化することで、広告主から見たメディアの価値を再定義するサービスなどです。

READを足がかりに、テキスト、画像、その先には「メディア価値の証明」があります。記事を読まれることがメディアの価値。我々は今後も、そこを強く訴求するサービスを提供していきます。

▼程 涛(テイ・トウ)2L7A4964

popIn株式会社 代表取締役

1982年中国・河南省生まれ。東京工業大学卒業後に、東京大学情報理工学研究科に進む。2008年修士在学中にpopIn創業。2015年Baidu Japanと経営統合。

Sponsored by popIn
Written by 阿部欽一
Photo by 伊藤恵一