ところが人間は、シベリアンハスキーを見ても「オオカミっぽいよね」とは思うものの、イヌだと判断します。しかし、その「イヌらしさ」を言葉で定義するようにお願いすると、明確に答えられずに困ってしまう。この人間の微細な判断基準になっているものを「特徴量」というのですが、これを人間が定義している限りは、画像認識の精度は上がりませんでした。
今までの人工知能は、すべて人間が現実世界をモデル化して、その後に機械が自動計算していたのです。ところが昨今、現実世界から重要である要素を見抜いて抽象化することを人工知能が行い始めた。そのきっかけとなる技術が「ディープラーニング」です。
その結果、画像認識の精度は一気に向上し、2012年にエラー率が16%を切る人工知能が現れました。さらに13年に11.7%、14年には6.7%とエラー率は下がり、15年にはマイクロソフトが4.9%、グーグルが4.3%を出しました。人間の画像認識のエラー率は5.1%ですから、15年に初めてコンピューターが画像認識で人間の精度を越えたのです。
ロボットが自ら学ぶことが可能に
松尾:次に起きているのが「運動習熟」です。ロボットが自ら練習して、上達できるようになりました。強化学習というテクノロジーは昔からあり、特定の状況での行動を「良い」「悪い」といって学んでいくのですが、これまでは特定の状況を人間が定義した特徴量を使っていました。それが現在はディープラーニングで、人工知能自らが自動的に取り出した特徴量を使えるようになりました。
13年にアルファ碁がブロック崩しを学習していく実験映像が公開されました。そこでは、人工知能が画像認識によって丸いボールや打ち返すバーをどう動かせば点が入りやすいかを学んでいきます。最初は下手ですが、だんだん上達して、最終的には左端を狙い始めます。そこが一番、大量得点につながることに気付いたからです。
昔からコンピューターは、医療診断や数学の定理の証明は得意でしたが、3歳児ができるような画像認識や積み木を積むといった作業が苦手でした。これは「モラベックのパラドックス」と呼ばれ、この状況が何十年も続いていました。それが今、覆りつつあるのです。
AIが言葉を理解する
松尾:人工知能は「言語理解」も少しずつできるようになっています。例えば、画像を入れると文が出てきたり、文を画像で表現したりするテクノロジーも出てきています。
このテクノロジーは翻訳に応用できます。これまでの翻訳は統計的言語処理で、意味を理解していない翻訳でした。しかし画像を介した翻訳は、意味が分かった翻訳になります。つい最近、グーグル翻訳がディープラーニング版に替わり、精度が大幅に向上しました。今では論文をグーグル翻訳に入れると、ほぼ意味が分かるほどです。
これらが可能になった背景には、画像認識という「目」が人工知能に誕生したからです。目が見えると、農業、建設、食品加工など、基本的に人間が目で見て作業をしていたことを、ロボットや機械ができるようになります。
例えばトマトを収穫する際に、ロボットが「いいトマト」と「そうでないトマト」を見分けることができるようになりました。ロボットを使えば、大幅なコストダウンになりますし、病気の判定もできます。さらに進化すれば、ほぼ100%機械化されたトマト農場を、そのまま海外に輸出することもできます。
目のある機械を、ありとあらゆる産業に導入して、サービス化、プラットフォーム化して海外展開すれば、大きな産業分野が生まれるはずです。
ただし今後、ディープラーニングの技術自体はコモディティー化していきます。そうなると、最終的に競争力を持つのは「データとハードウエア」です。ハードウエアは日本の得意分野ですから、欧米企業がなかなか追いつけない。ものづくりを基点に、ディープラーニング技術を活用したプラットフォームのグローバル展開を進めていけば、日本は優位な立場を構築できると思います。
同時に人工知能の活用に当たっては、社会全体での議論も必要です。車の自動運転で大勢の人への危険を回避するために一人を犠牲にするといった「トロッコ問題」をどう考えるのか、軍事への応用を国際社会でどう考えていくのか、知財や権利に関する議論も必要でしょう。
われわれ人間は、人工知能にどのような目的を与えて、どのような社会をつくっていきたいのか、社会全体で議論していく必要があります。
並河:ありがとうございます。松尾先生には、広告会社が人工知能をどのように活用していけばいいのかについても、後ほど詳しく伺いたいと思います。