モノのインターネット (IoT) の時代では、接続されたデバイスはますますスマートになっています。スマートフォン、スマートホーム、スマートカー、スマート家電、さらにはスマートテレビもあります。しかし、この最後の例から疑問が湧いてきます。テレビがそんなに賢いのに、リモコンはなぜこんなに愚かなのか?
お気に入りの番組を視聴する以上の目的でスマートテレビのリモコンを使用しようとしたことがある人は、おそらくその経験に不満を感じたことがあるでしょう。インターネット接続の設定さえも困難な場合があります。ブラウザにURLアドレスを入力しようとする必要はありません。確かに、一部のテレビではキーボードやスマートフォンを使用することができますが、これらの接続はどれも簡単でも便利でもありません。友達が大事な試合を見たいのに、自分がボタンをいじくり回しているのを見ると、ちょっと恥ずかしいです。最近のリモコンは、PCに「C:>」プロンプトがあった頃の思い出をよみがえらせます。使いやすいGUIベースのオペレーティング システムへの移行は、ほとんどのPCユーザーにとって大きな前進でした。リモコンもそれに倣うべき時が来ました。問題は、これをどのように達成できるかということです。
リモコンの歴史と「スマート」になる理由
最初のワイヤレスTVリモコンは、1950年代の超音波Zenith Space Commandにまで遡ります。これらの RFベース の制御は1980年代から赤外線 (IR) 技術に置き換えられましたが、信じられないことに、今日私たちが使用しているものはほぼ同じです。技術には多少の変化はあるものの、現代のリモコンの大部分は依然としてIRベースであり、ユーザー エクスペリエンスは1980年代とほぼ同じです。エンドユーザーのエクスペリエンスを向上させるために、一部のテレビメーカーは、双方向RF通信、視線制限なし、さらにはQWERTYキーボード インターフェイスなどのより高度な機能をリモコンに実装しています。しかし、メーカーはテレビ内部の機能に合わせてリモコンの機能を進化させていません。次に紹介するのは、リモート機能と使いやすさの新たなレベルである音声制御です。リモコンがユーザーの音声コマンドを本当に「聞き取り」、それをテレビのコマンドに変換できると、リモコンの機能と使いやすさによってテレビのコンテンツを操作できるようになります。
リモコン音声認識のメリット
テレビのリモコンに音声認識機能を追加すると、ユーザーエクスペリエンス全体が変わります。そして、それが正しく機能すれば、すべての変更は良いものになります。音声認識がないと、現在のリモコンのほとんどは、ボタンを押すというイライラする作業、送信の遅延、進行状況の消失、面倒なスペルの練習などを引き起こします。部屋が暗い場合はさらに悪いです! 音声対応リモコンを使用すると、ユーザーはリモコンを起動してコマンドを話すだけで済むため、テレビのメニュー構造から完全に外れた操作が非常に速くなります。たとえば、番組を視聴しているときに、ユーザーはリモコンの起動ボタンを押して、「今夜7時に『ビッグバン・セオリー』という番組を録画して」などと言うことができます。それだけです。従来のパラダイムでは、ユーザーはこの目標を達成するために長く困難なプロセスを経なければなりませんでした。音声の場合は、1) リモコンを起動し、2) コマンドを話し、3) アクションを確認するという、わずか数ステップで済みます。
音声認識の仕組み
ハンドヘルドの音声認識はどのように機能しますか?いい質問ですね。それは私たちが考えるほど明白なことではありません。音声認識を実行するために必要な処理能力とデータは、ほとんどのリモコン、テレビ、さらにはスマートフォンの範囲を超えています。実際、今日のスマートフォンの音声認識はクラウド コンピューティングを通じて実現されています。音声コマンドを録音し、それを連絡先リストから番号をダイヤルするなどのタスクにリンクしていた昔の音声タグ付けを覚えていますか?理論上は、「ケンにダイヤル」と言うと、運が良ければ携帯電話が「ケンにダイヤル」してくれるのですが、たいていは「ベンにダイヤル中」とアナウンスされ、携帯電話を窓から投げ捨てることになります。音声認識は近年大幅に進歩しており、音声認識のリーダーにはNuance Communications、 Microsoft、Google、Amazonなどの企業が含まれます。音声制御にSiri、Google、Alexaを使用する場合、これらのアプリケーションは音声をデジタル化し、インターネット経由で送信して、応答用に処理します。このやり取りの複雑さは図1に示されています。
実際、常時オンの機能を使用すると、GoogleウェブページまたはAndroid OSスマートフォンから「OK Google」と言うだけで、音声コマンドがデジタル化され、クラウドで処理されてから、検索コマンドのテキストに変換され、検索が開始されます。テレビ市場で音声コマンドを可能にする重要な要素は、スマートテレビがすでにインターネットに接続されており、この大規模なインフラストラクチャを活用できるという事実です。
リモコンに音声機能が必要
スマートテレビにはインターネット接続機能があるという事実から、「なぜリモコンが必要なのか?」と疑問に思うかもしれません。「テレビがインターネットに接続されたので、話しかけるだけでテレビを操作できるのではないでしょうか?」答えは「はい」ですが、その解決策にはいくつかの問題があります。まず、テレビがリモコンの操作なしに直接音声を認識するには、テレビが常に音声を聞き取っている必要があります。現在、一部のテレビではこれが可能であり、実際に実行されていますが、この機能の予期せぬ結果により、プライバシーに関する否定的な報道が行われています。テレビがユーザーの会話を常に聞き取り、コマンドを解読するには、それらの会話を常にインターネット経由で送信する必要があります。これは珍しいことではありませんが、この機能では適切なセキュリティが適用されず、ユーザーの会話が自由に公開されていました。ユーザーは一般にこのことに気付いていませんが、気付いていたとしても、リスニング機能をオフにするか、「リスニング」テレビのある部屋での会話の内容を大幅に削減するでしょう。第二に、周囲の雑音からコマンドを拾い上げるデバイス能力、または音声コマンドをテレビの音声や背景の会話から区別するデバイス能力に関する問題があります。リモコンを使用して音声コマンドを開始およびストリーミングすることで、ユーザーはこれらの懸念を大幅に軽減できます。その理由は、1) ユーザーが積極的に、かつ意識的にテレビのリモコンを操作すること、2) ユーザーが持つリモコンは部屋の向こう側ではなく、数インチ離れたところから音を拾うように設計されていることです。
技術とコスト
次の疑問は、「これだけ多くの利点があるのに、なぜ音声リモコンがもっと普及していないのか?」です。インフラストラクチャ、テクノロジー、コストの3つが重要な要素です。
1) インフラストラクチャー: 音声認識が家庭内のハードウェアでサポートされている場合でも、それをサポートするバックエンド インフラストラクチャが整備されている必要があります。つまり、テレビプロバイダーは音声認識エンジンを開発するか、サードパーティにサービス料を支払う必要があるということです。後者の場合、ユーザー コマンドはテキスト ベースの文字列に変換され、テレビでコマンドにデコードする必要があります。幸いなことに、事業者が差別化を図り、ユーザーエクスペリエンスを向上させようとしているため、このプロセスはより主流になりつつあります。
2) テクノロジー: 周知のとおり、音声認識をテキスト コマンドに正しく変換するにはいくつかのハードルがありますが、これらはクラウド コンピューティング プロセスと前述の主要プロバイダーによって急速に克服されています。時間と第三者の情報があれば、このハードルは小さくなります。また、バッテリー寿命を犠牲にすることなく、リモコンからテレビや利用可能なインターネット接続に音声データを送信できるワイヤレス テクノロジーは何かという疑問もあります。一般的な音声認識システムでは、16 kspsの16ビットADC解像度が必要であり、その結果、256 kbpsのデータが生成されます。つまり、ワイヤレス テクノロジのスループットが少なくとも256 kbpsでない限り、何らかの圧縮が必要になります。ハンドヘルドIRレートは通常、データ帯域幅の要件を満たすには不十分ですが、圧縮を使用してスループット要件に対応することで、 Zigbee® Remote Controlなどのワイヤレス テクノロジは十分なデータ レートを実現し、優れたバッテリ寿命を実現します。これについては後で詳しく話します。
3) コスト: 結局はコストの問題です。インフラのコスト、テレビのコスト、リモコンのコストです。
リモートコントロールのコストについて
リモコンに音声機能を追加すると、標準RFリモコンの 部品表 (BOM) コストが2倍になる可能性があります。音声対応リモコンは、RFをサポートし、マイクとコーデックを追加し、サポート回路を組み込む必要があります。次の例は、IR、RF、RF+Voiceのブロック図の比較を示しています。IRリンク機能は常に各リモート コントロールに残っており、RFまたはRF+Voiceと関連するBOMの違いが表示されます。
図2: IRリモートコントロールシステムの例
図2は、一般的なIRリモート コントロールのブロック図です。これらは、IR制御用の非常に低コストの MCU またはASICを使用して構築されています。場合によっては、テレビやDVDプレーヤーなどのさまざまなデバイスに必要なIRデータベース コードを含む追加の不揮発性メモリが搭載されることもあります。(「ユニバーサルリモコン」を考えてください。)
図3: RFリモートコントロールシステムの例
図3はIRブロック図に基づいていますが、IR内のマイクロコントローラをRF System on a Chip (SoC) に置き換え、アンテナを追加しています。RF SoCは通常、IR MCUよりも高価ですが、大規模なIRデータベースを保存する必要がないため、不揮発性メモリのコストが削減され、追加コストを相殺できます。RFリモート コントロールは、双方向RFリンクを介してテレビまたはケーブル/衛星ボックスから必要な制御コードをダウンロードできます。テレビやケーブル/衛星放送のボックスには、コードを保存するためのメモリがはるかに多くあり、クラウドからデータを取得することもできます。クラウドから情報を取得すると、デバイスの構成時にサポートされていなかった可能性のある新しいデバイスのコードも更新されます。
図4: 音声操作リモートコントロールシステムの例
図4では、ハードウェア コーデックとマイクを挿入して、RFリモート コントロールに音声機能を追加します。これらのデバイスにより、BOMコストが大幅に増加する可能性があります。しかし、今日のワイヤレスSoCチップの処理能力が向上したため、ハードウェア コーデックの代替手段を検討できるようになりました。たとえば、 Silicon Labs EM341 zigbee SoCはCortex® M3プロセッサをベースとしており、RFリモート コントロールの要件だけでなく、ソフト コーデックも処理できる十分な処理能力を備えています。
音声対応リモコンの例
IR、RF、音声機能をサポートするフル機能のリモート コントロール リファレンス デザインを見てみましょう。この場合、Silicon LabsのZigbeeリモート コントロール リファレンス デザイン (EM34X-VREVK) を詳しく調べます。このZigbeeリモート コントロール デバイスは、音声、IRデータベース付きIR、バックライト付きキーボード、およびバックライトをアクティブにする加速度センサーをサポートします。
図5: Silicon Labs Zigbeeリモートコントロールリファレンスデザイン
音声オーディオの場合、256 kbpsのスループットをサポートする必要があります。Zigbeeのデータ レートは256 kbpsですが、ポイントツーポイント リンクの実際のスループットは通常100 kbps以下です。つまり、無線で送信する前にオーディオを4:1に圧縮する必要があります。リファレンス デザインでは、ハードウェア コーデック、マイク、音声機能を使用します。ただし、RF SoC EM341は、機能を削減することなく大幅なコスト削減を実現できるソフトウェア コーデックもサポートしています。ソフトウェア コーデックは、図6に示すように、デジタルPDM (パルス密度変調) マイクをEM341のSPIピンとGPIOピンに直接接続することを基本としています。
図6: PDMマイクをEM341 SoCに接続する
EM341のCortex M3は、PDMからPCM (パルス コード変調) へのフィルタリング/デシメーション、イコライゼーション、および圧縮プロセスを処理します。PDM出力からZigbee送信までの完全な手順は図7に示されており、Silicon Labs Zigbeeリモート コントロール アプリケーション プロファイルの無料ライブラリとして提供されています。
図7: PDMからZigbeeへのパケット変換のためのProcess Overview
今すぐ購入:
関連商品を見る
関連商品を見る
RF接続とそれがIoT拡張の基盤となる仕組みについて詳しく知る ここ。