音声デバイスの将来を考える【必要か不必要か?】
IT系メディアのImpressが展開するサイト「AV Watch」さんにAmazon MusicやEchoに関する興味深い記事があったので、今日は音声デバイスについて色々考えてみたいと思います。
Amazon Music(Alexa)に「いいね・好きじゃない」機能が搭載

まずAV Watchさんに書かれていることの詳細は記事をご覧いただくとして、簡単に抜粋すると
- Amazon Musicで再生中の音楽に「いいね」「好きじゃない」などを伝えることで、ユーザの好みをAlexaに伝えることができる機能が搭載された
- Amazonの見込みによれば、(音声アシスタントデバイスは)2019年には33億台、2023年には80億台にまで達する見込み(恐らくワールドワイド)
- 対して日本はまだ導入期
- Alexaユーザの65%が前よりも音楽を聴くようになり、53%が新しい音楽を見つけたと回答している
- Echoデバイスのような新しいテクノロジーが、ユーザとアーティストの新しい繋がりを生み出している
- 音声認識は「発話内容を認識」「文字に変換」「文章や単語を理解」「コマンドを実行」「検索結果から好みに合う音楽を抽出し再生する」という順で動作する
- この始めの2つが日本語の場合は最も難しいが、日々精度を増すよう努力している
という感じです。
音声認識については、Echoを日本発売から使い始めて感じるのは「確かに進化しているように思えるが、もの凄い進化かと言われると首を傾げるくらい」ということ。
これは2つの意味があって「発話した内容を上手く認識してくれないことがある(上の第一段階)」ことと「したいこと(好みのこと)と違うことがある(第5段階)」ですね。
発話内容の認識では「ある程度大きな声(※しっかりしゃべる)」ではちゃんと認識してくれるので、恐らくマイク性能の問題でしょう。
Echo Dotよりも無印EchoやEcho Plusなどの方がマイク性能は高いと聞いたことがありますので、この辺りは機会があれば試してみたいところです(今現在、新しい無印Echoが出るのを虎視眈々と待っている状態)。
「したいこと」については主に音楽についてですが、Alexaに「音楽をかけて」とお任せで音楽を再生させた場合のこと。
このような場合は「以前に再生したプレイリスト」から再生されることが多いのです(ユーザ作成のプレイリストに加えて、Amazon Musicで指定しているプレイリストを含む)。
基本的に一度でも再生されると「以前に再生したプレイリスト」入りしてしまうので、一旦「それは好きじゃない」と思っても後々再び再生されたりするわけですね。
なので今回発表された「いいね機能」は結構良い機能かもしれません。
と書いた辺りで「あれ、でもこれって前からなかったっけ?」と思いました。
Amazonのヘルプページを見たら一覧に「楽曲の好き嫌いを指定する」という項目がありますが、これが今回追加されたのかどうかは不明です。
もしかしたら「個別の楽曲の好き嫌いは以前からあったが、今回実装されたのは傾向として捉える機能」なのかもしれません。
いずれにしても「ユーザの好み」を知らせられるのは良いことです。
で、ここでふと思ったのが「こういう機能こそ、音声デバイスのキーポイントなのかもしれない」と思った次第です。
音声デバイスの将来を考える Echoは一般家庭に必須のデバイスとなるのか?
Echoを使ってみて思ったのは「音声で家電や音楽をコントロールすること自体に、それほど大きな利便性はない」ということです。
強いて言えば「家に帰ってきて音楽をかけたい場合」に「服を着替えながら音声で頼む場合」と「オーディオのスイッチを手で入れて、再生スイッチを押す場合」を考えると、前者の方が楽で効率的なようにも思えます。
もしくは「洗い物をしながら今日の天気を確認する」とか「『いってきます』の一言で、ライトやTVなどのスイッチを一斉にOFFにする」という使い方も便利でしょう。
つまり「何かをしながら音声で別のコントロールをする」という場合においてのみ、音声デバイスのコントロールは利便性を発揮すると言えるのではないでしょうか。
逆に言えば「Echoの前でEchoに向かって『TVを点けて』と頼む」のであれば「テーブルの上のリモコンを取ってスイッチを押す」という動作と比べて、それほど利点はありません。
もっと言えばシーリングライトなどは「人感センサー」でオンオフさせた方が楽ですし、朝決まった時間にTVを点けたいのであれば、先日私も買った「EGG」などのスマートリモコンで「6時にTVの◯チャンネルを点ける」というスケジュールを組んだ方が捗ります。
このようなことから「生活を便利にする」という目的であれば、わざわざ音声によるコントロールを介さない方が便利なのは間違いなく、そうなってくるとEchoなどを使う目的は「ただのガジェット好き」が楽しみのために使う≒おもちゃ的要素しかないとも言えるのかもしれません。
ただ先程書いたように「ユーザの嗜好を汲み取る」つまり「コミュニケーションする」という機能は、センサやスケジューラでは敵わない機能とも言えます。
今現在は「ユーザの発話」「Alexaの応答」という一方通行のコミュニケートしか行なえませんが、これが「ユーザの発話」「Alexaの応答」「ユーザの応答」「Alexaの応答」のように、連続した会話ができるようになってくると、音声デバイスは完成の域に達したと言ってもいいのかも……。
とは言え、これは相当先の話になりそうですけどね。
でも
「アレクサ、聞いてよ」
「なんですか?」
「今日さ、上司に怒られちゃって……ってなことがあったんだよ」
「それは災難でしたね。そういうときは映画でも観て気分を変えましょう。おすすめの映画があるんですよ」
「じゃ、それ再生して」
みたいなのが実現すると面白そうですよね(笑)。

人間には5つの感覚器官がありますが(シックスセンスは除外)、この中で人が誰かと(他の人やデバイスでも)コミュニケーションを取るときよく使われるのが視覚と聴覚です。
つまり文字によるコミュニケーション(視覚)と音声によるコミュニケーション(聴覚)です(点字などは触覚ですね)。
文字によるコミュニケーションは多くの場合、一方通行だったり非リアルタイムなことが多いですよね。
チャットなどを除くとLINEやメール、ブログ、小説、色々な文字コミュニケーションは「即返事があるわけじゃない」「そもそも返事があるとも限らない」というものです。
ですが、音声はほとんどの場合リアルタイムでのコミュニケーションですよね。
誰かが「ねぇねぇ聞いて」と言えば、その場で会話が開始されますし、電話などでも同じことが起こっています(留守電は別ですが。留守電って今でもあるのかな?)。
リアルタイム故に、音声は文字に比べてより人間的なコミュニケーションが求めれるのかもしれません。
Amazonの言うように音楽デバイスとしてのEchoを考えると、確かに従来の視聴方法と比べると利点はあります。
私自身、あまり聴かなかった曲に出会えたりしましたし、Amazon Music Unlimitedと合わせて使うとより気軽に使うことができるので、音楽に触れる時間も増えたように感じられます。
ですが、それではユーザの頭打ちは近いのではないでしょうか。
いくらCDが衰退したとは言え、まだ売上があるものも多いですし、iTunesなど(なくなりますが)のデジタルミュージック販売などで好きな曲だけ買って聴きたいという層は多いのだと思います。
一家に一台以上の音声デバイスという状態になるには、音楽以上の機能が必要になってくるのでしょう。
そういう意味ではEcho Show、Echo Spotのようなカメラ機能を使ったビデオコミュニケーションは「いいとこ突いてるなぁ」と感心しますね。
上記に書いたデバイスとのコミュニケーションはまだまだ難しいのかもしれませんが、以前Googleが発表した「Google Duplex」なんかの機能を見ていると、案外そう遠い未来の話ではないのかもと思えてきますね。
このようないわゆるAIは「知性を持ったコンピュータ」ではなく「膨大なデータベースから機械学習したアルゴリズム」ですから、利用台数が多ければ多いほど賢くなっていくのだと思われます(もちろん、エンジニアの手によるチューニングは必要でしょうけど)。
ですので、物分りの良いデジタルガジェット好き(※)以外の人たちが多く使うようになってくると、AmazonやGoogle、Appleの競争はより激しくなり、より自然な言語の理解をしてくれるようになるのだと私は思います。
(※)「アレクサに頼むときはこう言わなきゃダメ」というようなことを理解している人たちのこと
まとめ
本記事のタイトルになっている「音声デバイスが必要か不必要か?」については、現状では必須ではないと言えるでしょう。
「音楽を聴く」という用途でしたら、BTスピーカーとスマホだけでも簡単にできますし、家電のコントロールも前述したようにスマートリモコンなどを活用することで代替できます。
ただこれからの10年間というスパンで見れば、Amazonの言うように確実に普及していくのは間違いないとも言えそうです。
そのときに「音楽と家電のコントロール以外の機能」を持っているか否か、という部分が音声デバイスが生活に必須となるのか? それともただのおもしろ家電で終わるのか? の分水嶺になるのではないでしょうか?
ディスカッション
コメント一覧
まだ、コメントがありません