3月3日は「耳の日」。ヒアラブルは「目」と「手」を自由にする

2017/03/03

日塔史
株式会社電通

今日、3月3日は「ひな祭り」です。でも私としては、「耳の日」だということを強くお伝えします！単純に「３３」が日本語で「ミミ」と読めるからだけでなく「３３」が形として「耳」に似ているからだけでもありません。

電話を発明したことで知られるグラハム・ベルは、実は、ろう教育に生涯をささげた人物でもありました。ベルの誕生日は、3月3日。ベルの仲介でサリバン先生がヘレン・ケラーのもとにやって来たのも、3月3日。なんだか3月3日と「耳」の運命的なつながりを感じませんか？

ヘレン・ケラー、アン・サリバン、グラハム・ベルのスリーショット

（1894年、The American Foundation for the Blindのホームページより）

これまでの連載で「ヒアラブル」は「Hear+Wearable」（聴覚のウェアラブル）と言ってきましたが、「Hear+Able」（聴覚を拡張する）とも捉えられます。耳に着けるデバイスに限らず、人間の聴覚を補完してくれる技術自体も広義のヒアラブルに含めるという独自の解釈です。

ベルによる電話の発明なども、「聴覚（音声）の遠隔通信」という機能拡張と解釈してみると、「ヒアラブル」の元祖ともいえるかもしれません。それでは、今日のところ「聴覚のテクノロジー」はどこまで進んでいるのでしょうか？今回はソフトウェアの視点を中心に紹介します。

声だけで人物を特定できる「mimi」

30代女性「いってらっしゃーい！」

Aくん「今日は帰ったら何して遊ぼうか？」
(くしゃみ)

Bさん「風邪ひいたかも」
(せき、踏切音、電車音、自動車音)

40代男性「早くしないと門をしめるぞー！」
（歓声、悲鳴、笑い…）

これは「mimi」というサービスを使ってマイク音から自動記述した子ども登校シーンのイメージ例です。mimiは東京大学発のベンチャー企業・フェアリーデバイセズが「聴覚」プラットフォームとして展開しています。音声データを送るとさまざまな形に加工して送り返してくれるというものです。mimiの代表的な機能としては、「音声認識」と呼ばれる、音声をコンピューターが処理できるように文字化する技術(STT=Speech to Text)があります。

最近は音声入力で検索する人も多いですが、これも近年音声認識の精度が上がったことで実現した状況です。現在は多くの企業が「ディープラーニング」という技術を活用して音声認識精度の向上にしのぎを削っています。mimiにはそういった基本的なSTT技術に加えて、事前に個人別の音声を登録しておくことで「現在誰が話をしているか」を聞き分ける仕組みがあり、未登録の人に関しても性別と年齢の属性を推定できます。さらには「拍手」「息」「くしゃみ」「笑い声」など会話以外の音や、人間以外の電車や自動車の音を認識する仕組みも提供しています。

つまり、マイクをオンにして環境音をずっと録音しっぱなしにしておけば、自動的に「誰がどんな状況でどんなことを言ったのか」がライフログとして記録されていき、それを後でテキスト検索することもできるのです。いわば議事録の究極形ですね。フェアリーデバイセズ社長の藤野真人さんに話を伺ったことがありますが、自らの音のライフログをmimiで記録したのを見てみると、「まるでト書きのある台本のようで、自分はその物語の主人公のようだった」とのことでした。

ここ数年「視覚」の拡張として、画像認識による属性推定技術（Facebookなどで誰の顔かを認識してくれるもの）が注目されてきましたが、同様に「音」だけによる「状況や個人の特定、類推」の技術もかなり進んできているということです。

ネット決済は声紋認証で、パスワード要らず!? 「Nina」に見る近未来

男性がスマホに向かって話しかける。

トム「私の声がパスワード。妻の口座に500ドル振り込んでくれる？」　

スマホ「OK、受け付けました。トム、支払期限が過ぎているケーブルテレビ料金も支払いますか？」

トム「そうだった。全部支払います」

画像をクリックするとYouTubeで動画が閲覧できます

これは、音声認識の世界的企業であるアメリカのニュアンスの「Nina」というサービスです。

今までインターネットの決済取引などではパスワードを求められていましたが、事前に自分の声でキーワードを登録しておくことで、その後は登録したキーワードを言うだけでNinaが本人特定をしてくれます（映像では「私の声がパスワード」がキーワードに当たります）。つまり私たちを大いに悩ませてきた「パスワードの入力」が要らなくなるということです。

声紋認証の技術もさまざまな会社で開発されていますが、ニュアンスは2012年（5年も前！）の時点ですでにこの映像を公開していました。私はこの映像を初めて見た時、財布不要でパスワードを覚える必要もない世界観に驚くとともに、入力がハンズフリーとなることでコミュニケーションが大きく変わる可能性を感じました。

そして「このような決済サービスは、そのうちスマホなしでマイク付きワイヤレスイヤホンだけでできるようになるのでは？」とも思いました。現在、生体認証による決済は、指紋認証や顔認証、静脈認証などさまざまな試みがあります。決済など金融関連のサービスは間違いが許されないため、どうしても二重三重での認証が必要となってユーザーの負荷が大きくなりがちです。しかし例えばNinaのような声紋を使った認証と、第2回でご紹介した「音を使った耳の穴の形の生体認証」を組み合わせれば、マイクとイヤホンのみで二重の生体情報（耳穴と声紋）を取ることができます。ユーザーの負荷も小さく、「音だけの決済」にぐっと近づけるのではないでしょうか。

ヒアラブルは再び人々から「目」と「手」を自由にする

「AI技術の進化により、コンピューターの音声認識能力はここまで進化している！」という二つの例を見ていただきました。今のソフトウェアは、人間の言葉を聞き取ってテキスト化して理解したり、誰がしゃべっているのかを正確に区別することができるようになっています。こうなってくると従来のようにデバイスを目で見て手で情報を入力するのではなく、ハンズフリーで、声でコンピューターで操作することが増えてくると予想されます（一部では「ボイス・コンピューティング」と呼ばれ始めています）。この数十年「目と手」だけで行われてきた日常の中の機械と人間のコミュニケーションのかなりの部分は、今後より便利な「耳と口」を使ったものに置き換えることができるのではないでしょうか。

そうなると世の中の風景は少し変わるはずです。現在スマホで「目と手」で行っているコミュニケーションの一部、例えば、メールチェック、SNS、スケジュール管理、検索、道案内などを「耳と口」でできれば、人間は再び「目と手」が自由になります。歩きスマホは危ないですよね。「目と手」が道具にふさがれている状態です。当然ながら、目は道を真っすぐ見ながら子どもと手をつなぎ、イヤホンに道案内をしてもらった方が安全です。私は決して視覚を軽視しているわけではありません。むしろ「目と手」は人間にとって重要であるがゆえに、本来あるべき姿に戻るべきだと考えています。人間が本来あるべき姿に戻った時にどんな未来がそこにあるのか…それはまたの機会に。