音声認識を電気機器の制御に応用することは重要な開発トレンドとなっていますが、音声認識システムは通常、インターネットに接続する必要があります。インターネットに接続されていない限り、役に立たないでしょう。この記事では、音声認識技術のネットワーク制限を取り除くために、2セットのオフライン音声認識技術を紹介します。
音声認識はヒューマンマシンインターフェースの主な開発トレンドとなっている
人工知能技術による音声認識技術のディープラーニングは2013年に飛躍的な進歩を遂げ、発展成長の第三波を切り開きました。人間と機械のインタラクションの変化の観点から見ると、この技術的進歩の後、音声インタラクションモードは長い間重要な位置を占めるでしょう。民生用電子機器、通信用電子機器、自動車用電子機器、医療用電子機器、産業用電子機器など、ボタン、キーボード、リモコン、タッチスクリーン、ジェスチャー制御領域がある限り、理論的には音声のニーズが存在します。
音声認識技術は、音声認識と意味分析を実行し、対応する応答を適用するためにビッグデータに依存しており、非常に大きなデータベースにつながるため、スマートスピーカーなどの現在の主流製品は、音声認識制御を実行するためにネットワークに接続する必要があります。ネットワークが切断された場合、システム全体が使用できなくなり、ネットワークの動作もネットワーク速度などの要因によって制限され、多くの場合、時間差や反応の遅れが生じます。さらに、システムはネットワークに接続する必要があるため、侵入のセキュリティリスクがあります。実際、多くの電化製品は、ユーザーが発行するいくつかの固定の音声コマンドを理解するだけでよく、全知全能である必要はありません。したがって、これらのオンライン音声認識システムは過剰に優れているように思われます。
これらの問題を解決するために、オフライン音声認識技術が代替手段となります。チップに内蔵された音声認識システムを使用します。システム全体はネットワークに依存せず、ユーザーの音声コマンドを認識して対応するアクションを実行できます。以下では、2組のオフライン音声認識システムと関連アプリケーションの開発動向を紹介します。
東芝デバイス&ストレージ株式会社は長年にわたり人工知能技術の開発に取り組んできました。1967年に郵便番号郵便物分類システムが開発され、その後も文字・音声・画像の認識システムの研究が続けられました。同社は人工知能の分野でたゆまぬ努力を続けてきた。東芝は、音声認識システムを電化製品に直接組み込むことができるTZ2100組み込みシステムを発表しました。ユーザーは音声を通じて家電製品を直接制御できるため、家電製品は音声コマンドに迅速に応答し、システムは比較的シンプルで、ネットワークの相互接続や侵入のリスクがありません。
東芝のTZ2100組み込みシステムは現在、日本語、中国語、アメリカ英語の音声認識をサポートしています。ARM CortexA9 @300MHzプロセッサのコンピューティング能力を使用し、音声をサポートし、ヒューマンマシンインターフェース (HMI) を表示し、2Dグラフィックディスプレイに必要なすべての主要機能を統合し、オーディオコーデックと1MB SRAMを内蔵しているため、顧客のオーディオコーデックとDRAMの調達コストを節約し、2層のプリント回路基板を採用しているため、顧客のBOMコストを節約します。
東芝は現在、顧客評価用に評価リファレンスボードとソフトウェア開発キット(SDK)を提供している。お客様は、TZ2100を既存の電気製品に統合するだけで、電気製品に音声制御機能を持たせることができます。東芝は、システム全体を簡素化し、さらなるコスト削減を図るため、将来的に音声トリガーモジュールを発売する予定だ。
2015年に設立され、中国の成都に拠点を置くChipintelli Technology Co., Ltd. は、音声認識集積回路と音声認識アプリケーション スキームの開発に積極的に取り組んでいます。Chipintelliは、基本的なチップレイヤー サービス市場に位置しており、チップ設計と音声認識の分野で大きな優位性を持っています。
2016年、ChipintelliはMCUとUART、I2C、SPI、PWM、赤外線などの周辺制御インターフェースを統合し、ローカル音声認識とデバイス制御の統合をサポートするCI1006チップを発売しました。リアルタイム性が高く、認識精度はクラウドに匹敵します。音声処理アルゴリズム チップにより、システムの電力消費を大幅に削減できます。CI1006チップはサイズが小さく、周辺にDDR、NANDなどのデバイスは必要なく、BOMコストが低くなります。
CI1006チップはASICアーキテクチャに基づいており、ニューラル ネットワーク処理ハードウェア ユニットが含まれており、DNN (Deep Neural Networks) コンピューティング アーキテクチャを完全にサポートし、高性能なデータ並列コンピューティングを実行できます。MCUカーネルと一般的に使用されるさまざまな制御インターフェイスを使用して、さまざまなインテリジェント音声製品プログラムを設計し、シングルチップのローカルオフライン大語彙認識などの製品ソリューションを実現できます。インテリジェント家電、ロボット、インテリジェント玩具などの製品分野で広く使用されています。CI1006チップはオフライン認識システムであり、APPアプリケーション要件のないほとんどの電子製品に適していますが、オンライン認識とAPPスキームと組み合わせて複雑な多機能およびマルチタスク アプリケーションを実行することもできます。これは、信頼性、消費電力、コスト要件が低いプロジェクトに適しています。
実際、オフライン認識であれオンライン認識であれ、あらゆる種類の音声認識方式にはそれぞれ利点があり、システムをAPP操作と組み合わせる必要があるかどうかなど、実際のアプリケーション要件とコスト要件に基づいてすべてを考慮する必要があります。いずれにせよ、音声認識制御はヒューマンマシンインターフェースの最も重要な開発トレンドになるでしょう。当社は、市場開発のトレンドから取り残されることのないよう、関連製品をできるだけ早く開発してまいります。