4000-169-679

首页>行业资讯 >软板之百度实现技术革新,一颗芯片解决语音交互难题

软板之百度实现技术革新,一颗芯片解决语音交互难题

2020-05-07 10:40

  首先我们来分析一下,智能音箱的语音交互的软件层面为什么必须选择端到端建模的处理方式。传统上,为了提升远场语音识别的准确率,一般会使用麦克风阵列作为拾音器,利用多通道语音信号处理技术,增强目标信号,提升语音识别精度。软板小编了解到,目前,绝大多数在售的智能音箱产品系统所采用的多通道语音识别系统,都是由一个前端增强模块和一个后端语音识别声学建模模块串联而成的:

  前端增强模块通常包括到达方向估计(DOA)和波束生成(BF)。DOA技术主要用于估计目标声源的方向,BF技术则利用目标声源的方位信息,增强目标信号,抑制干扰信号。后端语音识别声学建模模块,会对这一路增强后的语音信号进行深度学习建模。

  波束区域拾音方法有局限性。上面这一类语音增强技术大都是采用基于MSE的优化准则,从听觉感知上使得波束内语音更加清晰,波束外的背景噪音更小。但是听觉感知和识别率并不完全一致。而且这种方法在噪音内容也是语音内容的时候(例如电视和人在同一个方向时),性能会急剧下降。

  增强和识别模块优化目标不一致。前端语音增强模块的优化过程独立于后端识别模块。该优化目标与后端识别系统的最终目标不一致。目标的不统一很可能导致前端增强模块的优化结果在最终目标上并非最优。真实产品环境复杂,传统方法会影响使用体验。基于波束区域拾音的方法严重依赖于声源定位的准确性,但对于首次唤醒,由于还不知道声源的位置,所以首次唤醒率往往很低。

  对这些问题最好的解决,就是将语音增强和语音识别的建模进行端到端一体化,设计一套深度学习模型,输入是多路麦克信号,输出是目标语言的文字,模型的优化目标只有一个,即字准确率。FPC厂了解到,2017 年谷歌团队曾最早提出采用神经网络来解决前端语音增强和语音声学建模的一体化建模问题。

  但谷歌提出的FCLP结构(Factored Complex Linear Projection)仍然是以信号处理方法为出发点,用一个深度学习网络去模拟和逼近信号波束,因此也会受限于信号处理方法的一些先验假设。相对于传统基于数字信号处理的麦克阵列算法,谷歌得到了16%的相对错误率降低。 百度采用了类似的思想,即做“语音增强和语音声学建模一体化”的端到端建模,不过他们所采用的是“基于复数的卷积神经网络”。

百度实现技术革新,一颗芯片解决语音交互难题

  相比于谷歌的方法,该方法彻底抛弃了数字信号处理学科的先验知识,模型结构设计和数字信号处理学科完全脱钩,充分发挥了CNN网络的多层结构和多通道特征提提取的优势。在保留原始特征相位信息的前提下,这个模型同时实现了前端声源定位、波束形成和增强特征提取。该模型底部CNN抽象出来的特征,直接送入端到端的流式多级的截断注意力模型中,从而实现了从原始多路麦克信号到识别目标文字的端到端一体化建模。

  如前面提到,相对于百度智能音箱之前产品所采用的基于传统“数字信号处理的前端增强模块”+“后端语音识别声学建模过程”的串联方法,这种基于复数卷积神经网络的语音增强和声学建模一体化端到端建模技术,获得了错误率超过30%以上的降低。30%的降低,这也是近期深度学习远场识别技术中,最大幅度的产品性能提升。

  同时,由于这种建模方式是端到端一体化,无需定位声源,因此就避免了传统上由于定位出错而导致的识别准确率急剧下降。特别是对于首次唤醒(没有定位信息),高噪音下这种技术的首次唤醒率最大幅度可以提升10%以上,且能保证高精准唤醒的同时,误报率非常低。这是一点,是业内传统技术无法做到的事情。这种方法的成功,说明了一点:“端到端建模”将成为远场语音识别产业应用的重要发展方向。

  百度推出的鸿鹄芯片,据官方介绍,采用了双核Hifi4 架构自定义指令集,超大内存,台积电40nm工艺(对于更高的工艺也没有必要),此外100mw左右平均工作功耗,即可同时支持远场语音交互核心的阵列信号处理和可用于唤醒的深度学习计算能力。芯片架构上,鸿鹄内嵌了上面提到的端到端一体化的建模算法,在内存结构和分级内存加载策略,以及cache、双核通信等结构上做了定制化的工作,能够实现深度学习计算过程和数据加载的高度并行。

  这里需要指出的是,由于鸿鹄芯片可以完成所有语音交互(远场拾音、唤醒、定位等)的功能,这就使得,经鸿鹄芯片提取的特征可以直接传递到云端,在云端进行高精准识别,而无需占用主芯片的任何计算资源。这种软硬一体的端到端架构,实现了高性能语音体验和极低成本智能硬件的统一。

  以百度官方的数据,这次新发布的智能音箱平均待机功耗只有100毫瓦左右,这完全满足 3C 产品的 0.5 瓦的待机标准,这也意味着任何一个国家认证的节能、环保的绿色家电产品,都可以搭载鸿鹄语音芯片。因此可以说,鸿鹄芯片也是业界首个达到该标准的集成完整远场语音交互端侧技术的语音芯片产品。

  此外,家居场合除了对唤醒精度有较高要求外,还需要有极低的误报,否则就会出现“深更半夜客厅莫名其妙地出现歌声”的诡异现象。柔性电路板厂发现,在传统的低功耗唤醒方案中,是否唤醒取决于放在主芯片中的决策模型,因此唤醒的误报水平也取决于它。但如果选用鸿鹄这种端到端的方案,则能避免多级唤醒所引入的错误,从而降低误报率。

  回过头来,我们去看百度提出的这整套技术所带来的识别错误率降低,首次唤醒率提升(同时误报率极低)以及待机功耗下降,显然还有可提升的空间。这种“可提升”,是由其在软、硬两个层面的革新所带来的。

  首先他们提出的“端到端建模技术”,直接将语音增强和声学建模两个过程融合为一,避免了在各自过程中优化不统一所带来的错误率下降,全局的优化目标只有一个,即字准确率。这种想法彻底抛弃了各种先验知识(以及所带来的错误),模型结构设计和数字信号处理学科完全脱钩,充分发挥了CNN网络的多层结构和多通道特征提提取的优势,是一个颠覆性的思想,显然还有更多可开拓的空间。

  另一方面,将模型嵌入芯片,用一颗芯片解决所有语音交互问题。不但具备较高的唤醒精度还具备超低的误报。这种新的软硬一体化架构,直接解放了主芯片,大大降低了对主芯片运算性能的要求,从而在价格和功耗上都能得到大幅度优化。这种架构的革新,必将成为改变整个智能音箱(远场交互场景)行业的一次技术革新。

网友热评

回到顶部

关于深联| 手机FPC | 平板电脑FPC | 工控FPC | 汽车FPC
医疗FPC | POS机FPC | 消费电子FPC | 站点地图|深联动态

粤ICP备11062779号 集团总部地址:深圳市宝安区福海街道展景路83号6A-16-17楼
深圳深联地址:深圳宝安区沙井街道锦程路新达工业园
赣州深联地址:江西省赣州市章贡区钴钼稀有金属产业基地
珠海深联地址:珠海市斗门区乾务镇融合东路888号
上海分公司地址:闵行区闽虹路166弄城开中心T3-2102
美国办事处地址:689, South Eliseo Drive, Greenbrae, CA, 94904, USA
日本深聯地址:東京都千代田区神田錦町一丁目23番地8号The Sky GranDEAR 三階

立即扫描!