人工知能のブレイクスルー、そのビジネスチャンスと問題点:松尾豊准教授「どんどんやっちゃえばいい」

映画やテレビでは本当に人間らしい「人工知能(AI)」の描写に出会える。「人工知能」に大きな誤解が生じていると指摘されている。しかし、近年のディープラーニングのブレイクスルーは、この分野に大きな期待を抱くのに十分な要因かもしれない。

東京大学特任准教授の松尾豊氏は、人工知能の技術はすでにあり、社会のさまざまなシーンに活用する準備はできており、「どんどんやってしまえばいい」と話している。人工知能の普及は社会システムの前提を覆すことになるため、今後は「我々はどんな社会を作ろうとしているのか」という議論を、エンジニアを含めた広範な人間により進める必要があると指摘している。本記事は7月4日に開かれた「グローバルビジネスハブ東京」のイベント内容をまとめた。

人工知能の始まりは1956年のダートマス会議とされており、人工知能はこれまでも2度のブームと2度の冬の時代を経験し、今回が3度目のブームだ。今回はインターネットが発達し、ビッグデータが増えてきたことに加え、コンピュータのパワーが向上している。伝統的なAIは特徴量(重回帰分析における説明変数のようなもの)を人間が定め、現実世界から重要な部分を抜き出す(モデリング)ことを人間が担ってきたが、ディープラーニング(深層学習)が大きなブレイクスルーであり、マシーンが自ずからモデルを設計し、自律的に特徴量を設定できるようになったことが大きいという。

松尾氏は人工知能には認識、運動の習熟、言語の3段階があると定めている。認識では、近年大きな進展が見られ、マイクロソフトのマシーンが2015年2月に画像認識の正確性で人間を抜いた。これは将来歴史の教科書に載るかもしれない。認識は人間しかできなかった。それがコンピュータもできるようになったのはとても大きいという。

運動の習熟は、状況と行動がセットになる。これまでは人間が正解の導き方をひとつひとつ与えてきたが、上手くできたことに報酬を与えることで、さまざまな状況で最適な行動をとるように学習していく。これが機械学習の一種である強化学習だ。「犬はフリスビーをやがてキャッチするようになる。そんな難しいことではない」と松尾氏は説明する。置かれた状況でもっとも期待できる報酬が大きい行動を選択するようになっていく。

報酬が行動を最適化させる:強化学習

強化学習分野にディープラーニングを適用して有名になったのが、ディープマインド(DeepMind)のAtari(アタリ)の「ブロック崩し」を自律的に上達していくディープQネットワーク(deep Q-network = DQN)。マシーンに画像を与えるだけで、スコアを報酬にすると、自律的に試行錯誤を繰り返し、ブロックを崩すことでスコアが得られることを知り、やがて効率の良い端を狙うようになる。

「まったく同じプログラムでほかのゲームでも上達していく。パックマンのような『この状況でこれをとる』という戦略性が必要なものはまだ人間がうまいが、反射神経が求められるものは機械の方がうまい」と松尾氏は語った。

この技術をロボットに適用すると行動が上達する。UCバークレーからはロボットにレゴをやらせて次第に上達していく例が出ており、いろんなタスクを実現している(下の動画)。

強化学習とディープラーニング(深層学習)を組み合わせることは、松尾氏が唯一日本で気を吐いているとする、機械学習ベンチャーのプリファード・ネットワークも進めているという(下の動画)。

「画像認識や物体を認識して握りしめるという子どもができることほど、コンピュータにやらせることが難しいというパラドクスが指摘されていたが、近年は大きく変わってきている。コンピュータのパワーが上がってきた。発想自体は以前からあり、福島邦彦氏は『ネオコグニトロン』を1980年に世界ではじめて発表していた」。

「最新のコンピュータを使い、実現できるようになった。『人間の脳はある種の電気回路。人間の脳がやっていることが情報処理であれば、コンピュータでできないわけがない』とアラン・チューリング(コンピューターの概念を初めて理論化した数学者)は考えたが、そう思って60年できなかった。なぜかというと『認識』ができなかったからだ。計算量が高すぎて乗り越えられなかった」。

松尾氏は人工知能は認識と運動をクリアしつつある、と語った。最後のチャレンジである言語では以下のことができるようになることが重要だ。

・文を見て、映像を生成できる
・映像を見て、文が生成できる

「これが2030年頃までにできるようになると推定している。でも予想を上回る速度で進んでいる。一部、言葉の意味理解まで入りつつある。オートメイティド・キャプションという自動でキャプションを付与する技術。画像を入れると説明する文が出てくる。またその逆の文が入ると、画像が出てくる、ということまでできるようになっている」。

「そうすると画像を介した翻訳ができるようになる。これまではできなかったので、統計的言語処理でやってきた。しかし、日本語の文から画像をつくり、その画像から英語の文をつくる、という人間の脳のなかで起きていることがやれる。人間の脳の処理プロセスに似ており、『意味』を理解しているのと同等だ」。

Googleは先週、即時物体認識(Instant Object Recognition)という技術をもつ仏スタートアップ・ムードストックス(Moodstocks)を買収した。Googleフランスのブログは、Google翻訳などのサービスを改良するために、ムードストックスがチームに加わったと説明している。つまり、松尾教授が指摘している、文→写真→文という翻訳プロセスに即時物体認識が応用されるとみられる。

日本は「労働機械」にかけるしかない

スタンフォード大学フェローであり起業家、そしてフューチャリストであるジェリー・カプランによると、人工知能には合成知能と労働機械がある。松尾教授は「合成知能の分野では、日本はグローバル(Google、Facebook、Amazonなど)では勝てない。農業、ヘルスケアなどで活躍する労働機械に力を注ぐべきだ」と断言する。環境が自然界で、状況が変わっていく。認識ができないかぎり自動化できないが、認識が可能になった。

「画像認識ができないから機械で代替できない仕事があった。街頭にいる警備員、警察官は街頭にカメラを置けばいい。街は変わっていく。言語の障壁がなくなる。日本人と日本語は別々になる。成田空港で『Wellcome(ようこそ)』、日本語だと『お帰り』と書いてある。日本人イコール、日本語という前提があるから通用するが、日本人が必ず日本語を話すという前提が崩れた社会では成立しない」。

「やればいいことはたくさんある。防犯、顔に寄る認識ログイン、表情の読み取り、店舗内ロボット、重機、建設などの自動運転、入国管理、産業ロボット、医療介護などだ。(技術はあるので)やっちゃえばいい。日本の国内にはプリファードさんしかやっていない。ほかにもベンチャーさんはいろいろあるといえばあるが。非常に巨大なエリアなんで、やっちゃえばいい。数学の知識、プログラムの知識がある程度あれば、テンソルフロー(TensorFlow)はオープンソースなので。理系の人が半年やっていれば、そこそこできるようになる。だからみんなやりましょう」。

「国内で技術力があるベンチャーは非常に数が限られている。プリファードはトヨタさんとかファナックさんとかと協業している。どうやって人材を獲得していくか。人材不足であり、連携、交流が重要だ」。

私たちの社会の目的とは何か?

人工知能は社会全体の話でもある。「我々が課しているルールは、取り締まる手段がないので杓子定規になっているルールがたくさんある。法定速度は安全運転のためだけど、気象条件によっては40キロでも危ない。安全であればスピードをもっと出していい。今後は表面的なことではなくて、安全性が保てればよくて、安全性を担保して法律なども決められる。社会システムを根本から決め直すことになるだろう」。

「与えられた目的に対してうまくやる、ってことはうまくできるようになる。何が目的にできるか。どういうふうに報酬を設定するか、ということになる。人間は知能+生命、知能は手段であり、生命は目的をもっている。目的を手段で解決しているので、目的自体を考えないといけない。従来は哲学、政治学、社会学、経済学などの方々がこの部分を考えたが、理系の人を含めて、また考える時期を迎えている」。

メディアがテクノロジーをもっと理解し、人々に説明できるようになるべき時代が来ている、ということでもありそうだ。

Written by 吉田拓史
Photo by Thinkstock