松尾先生、人工知能と広告の未来はどっちですか？（前編）

2017/02/03

今回の電通デザイントークは、「人工知能と広告の未来はどっちですか？」と題して、人工知能研究のトップランナーである東京大学・松尾豊准教授を、電通・並河進さんがお迎えします。「人工知能に今何が起きているのか？」「人工知能は広告にどう活用されていくのか？」「広告の世界で人間にしかできないことは？」など、人工知能が当たり前になっている未来と、そこでの広告の役割を想像します。

東京大学大学院工学系研究科総合研究機構特任准教授松尾豊さん

「ディープラーニング革命」が起きている

並河：「人工知能といえば、東京大学の松尾先生」と呼ばれるほど、松尾先生は人工知能をテーマにしたテレビ番組に出演されたり、書籍を執筆されたり、ご活躍しています。まずは松尾先生から「人工知能の今とこれから」についてお話を頂きたいと思います。

松尾：はい、今日は人工知能の中でも「ディープラーニング」を中心にお話ししたいと思います。
2016年3月にグーグルの人工知能専門チーム「ディープマインド」が作った「AlphaGo （アルファ碁）」が、世界最高峰の棋士イ・セドル氏を破ったことは記憶に新しいと思います。これは、かなり衝撃的なことでした。なぜなら囲碁は複雑なゲームで、人工知能が人間に勝つのは2025年ぐらいだと予想されていたからです。それが10年も前倒しで実現してしまった。

この勝利の一番の要因が、ディープラーニングです。このテクノロジーに関する破壊的なイノベーションが次々と起き、何十年もできなかったことが実現するようになりました。
では、ディープラーニングでいったい何ができるのでしょうか。シンプルにいうと「認識」「運動習熟」「言語理解」の三つが可能になります。これらを順番に説明していきます。

人工知能がイヌとオオカミの違いを見分ける

松尾：まず「認識」とは、画像認識のことです。人間はネコ、イヌ、オオカミの写真を見れば、すぐに区別できますが、人工知能にとってはこの判別が非常に難しかった。コンピューターは丸い目をしているとネコ、細長い目で耳がたれているとイヌ、細長い目で耳がとがっているとオオカミといった特徴から判定します。そのため、これまでの人工知能はシベリアンハスキーの写真を見せると、誤ってオオカミと判定してしました。

ところが人間は、シベリアンハスキーを見ても「オオカミっぽいよね」とは思うものの、イヌだと判断します。しかし、その「イヌらしさ」を言葉で定義するようにお願いすると、明確に答えられずに困ってしまう。この人間の微細な判断基準になっているものを「特徴量」というのですが、これを人間が定義している限りは、画像認識の精度は上がりませんでした。

今までの人工知能は、すべて人間が現実世界をモデル化して、その後に機械が自動計算していたのです。ところが昨今、現実世界から重要である要素を見抜いて抽象化することを人工知能が行い始めた。そのきっかけとなる技術が「ディープラーニング」です。

その結果、画像認識の精度は一気に向上し、2012年にエラー率が16％を切る人工知能が現れました。さらに13年に11.7％、14年には6.7％とエラー率は下がり、15年にはマイクロソフトが4.9％、グーグルが4.3％を出しました。人間の画像認識のエラー率は5.1％ですから、15年に初めてコンピューターが画像認識で人間の精度を越えたのです。

現実世界で人間は画像認識という能力を使った、たくさんの仕事をしています。この結果は、それら全てを自動化できる可能性が出てきたということを意味しています。

ロボットが自ら学ぶことが可能に

松尾：次に起きているのが「運動習熟」です。ロボットが自ら練習して、上達できるようになりました。強化学習というテクノロジーは昔からあり、特定の状況での行動を「良い」「悪い」といって学んでいくのですが、これまでは特定の状況を人間が定義した特徴量を使っていました。それが現在はディープラーニングで、人工知能自らが自動的に取り出した特徴量を使えるようになりました。

13年にアルファ碁がブロック崩しを学習していく実験映像が公開されました。そこでは、人工知能が画像認識によって丸いボールや打ち返すバーをどう動かせば点が入りやすいかを学んでいきます。最初は下手ですが、だんだん上達して、最終的には左端を狙い始めます。そこが一番、大量得点につながることに気付いたからです。

昔からコンピューターは、医療診断や数学の定理の証明は得意でしたが、3歳児ができるような画像認識や積み木を積むといった作業が苦手でした。これは「モラベックのパラドックス」と呼ばれ、この状況が何十年も続いていました。それが今、覆りつつあるのです。

AIが言葉を理解する

松尾：人工知能は「言語理解」も少しずつできるようになっています。例えば、画像を入れると文が出てきたり、文を画像で表現したりするテクノロジーも出てきています。

このテクノロジーは翻訳に応用できます。これまでの翻訳は統計的言語処理で、意味を理解していない翻訳でした。しかし画像を介した翻訳は、意味が分かった翻訳になります。つい最近、グーグル翻訳がディープラーニング版に替わり、精度が大幅に向上しました。今では論文をグーグル翻訳に入れると、ほぼ意味が分かるほどです。

これらが可能になった背景には、画像認識という「目」が人工知能に誕生したからです。目が見えると、農業、建設、食品加工など、基本的に人間が目で見て作業をしていたことを、ロボットや機械ができるようになります。

例えばトマトを収穫する際に、ロボットが「いいトマト」と「そうでないトマト」を見分けることができるようになりました。ロボットを使えば、大幅なコストダウンになりますし、病気の判定もできます。さらに進化すれば、ほぼ100％機械化されたトマト農場を、そのまま海外に輸出することもできます。

目のある機械を、ありとあらゆる産業に導入して、サービス化、プラットフォーム化して海外展開すれば、大きな産業分野が生まれるはずです。

ただし今後、ディープラーニングの技術自体はコモディティー化していきます。そうなると、最終的に競争力を持つのは「データとハードウエア」です。ハードウエアは日本の得意分野ですから、欧米企業がなかなか追いつけない。ものづくりを基点に、ディープラーニング技術を活用したプラットフォームのグローバル展開を進めていけば、日本は優位な立場を構築できると思います。

同時に人工知能の活用に当たっては、社会全体での議論も必要です。車の自動運転で大勢の人への危険を回避するために一人を犠牲にするといった「トロッコ問題」をどう考えるのか、軍事への応用を国際社会でどう考えていくのか、知財や権利に関する議論も必要でしょう。

われわれ人間は、人工知能にどのような目的を与えて、どのような社会をつくっていきたいのか、社会全体で議論していく必要があります。

並河：ありがとうございます。松尾先生には、広告会社が人工知能をどのように活用していけばいいのかについても、後ほど詳しく伺いたいと思います。