应用语音识别来控制电器设备已经成为重要的发展趋势,但是语音识别系统通常都得连上网络,只要一断网便英雄无用武之地。本文将为您介绍两套离线语音识别技术,摆脱语音识别技术的网络限制。
语音识别成为主流人机界面发展趋势
人工智能技术的深度学习语音识别技术在2013年实现突破,开启了第三轮发展高潮,从人机交互变迁角度看,语音交互方式在技术突破后将长期占据重要地位,无论是消费电子、通信电子、汽车电子、医疗电子、工业电子等,只要有按钮、键盘、遥控、触摸屏、手势控制的领域,理论上都存在语音需求。
由于语音辨识技术仰赖大数据来进行语音的识别与语意的分析,并做出相对应的响应,导致其数据库非常庞大,因此目前的主流产品如智能音箱,都必须连上网络才能够进行语音识别控制,万一遇到网络断线,整套系统便无法运作,且通过网络运作也受限于网络速度等因素,常会出现时间差,反应总是慢半拍,此外,由于系统必须连接网络,因此也存在被入侵的安全风险。许多的电器产品其实也只需要理解使用者所发出的固定几句语音指令,并不需要像个无所不知的万事通,这些在线语音识别系统也显得大材小用。
想要解决上述问题,离线语音识别技术,将会是另外一种选择,其采用在芯片中内置语音辨识系统,整套系统不需要依赖网络,便能够辨识使用者所下达的语音指令,并做出相对应的动作,以下我们将为您介绍两套离线语音识别系统,以及相关应用的发展趋势。
东芝电子器件与存储公司多年来致力于人工智能技术的发展,在1967年便开发出邮政编码邮件分类系统,后续又持续专研文字、语音、影像的识别系统,在人工智能领域努力不懈。东芝于日前推出了TZ2100嵌入式系统,可直接将语音识别系统内置在电器之中,使用者便可以通过语音来直接控制家电,使家电对于语音指令的反应更为迅速,系统也相对单纯简化,不须联网也没有被入侵的风险。
东芝的TZ2100嵌入式系统目前可支持日文、中文与美式英语的语音识别,其采用ARM CortexA9 @300MHz的处理器运算能力,支持语音与显示人机接口(HMI),并集成2D图形显示所需的所有关键功能,内置音讯Codec、1MB SRAM,可以节省客户采购音讯Codec与DRAM的成本,并采用2层PCB板,可以为客户节省BOM成本。
东芝目前已经提供评估参考板、软件开发套件(SDK)供客户评估,客户仅需将TZ2100与现有的电器相集成,便可以让电器拥有语音控制功能,东芝未来也计划再推出语音触发模块,以简化整个系统与降低更多成本。
成立于2015年,位于中国的成都启英泰伦科技有限公司(Chipintelli)也积极投入语音识别集成电路、语音识别应用方案的开发。启英泰伦公司定位于芯片基础层服务市场,在芯片设计和语音识别领域极具优势。
启英泰伦公司于2016年推出CI1006芯片方案,集成MCU和UART、I2C、SPI、PWM、红外等外围控制接口,支持本地语音识别及设备控制于一体,实时性高,识别准确率与云端相当,因语音处理算法芯片化,可大幅降低系统功耗。CI1006芯片体积较小,外围无需使用DDR、NAND等器件,BOM成本较低。
CI1006基于ASIC架构,包含了脑神经网络处理硬件单元,能够完美支持DNN(Deep Neural Networks,深度神经网络)运算架构,进行高性能的数据并行计算,其集成MCU内核和各类常用的控制接口,可以用于设计各类智能语音产品方案,实现单芯片本地离线大词汇量识别等产品解决方案,可广泛应用于智能家电、机器人、智能玩具等产品领域。CI1006方案本身为离线识别系统,适合于无APP应用需求的绝大部分电子产品,但CI1006也可以结合在线识别与APP方案,进行复杂的多功能、多任务应用,适合对可靠性、功耗、成本要求不高的项目。
事实上,各种语音识别方案各有千秋,无论是离线识别或是在线识别,以及系统需不需要结合APP操作,还是得依据应用的实际需求以及成本要求来做全面的考虑。无论如何,语音识别控制将成为人机界面最重要的发展趋势,尽早投入相关产品的开发,才不会在这波市场发展趋势中缺席。