“因为啥子不可以办银行卡?”——语音识别结果:“为啥不能办理银行卡?”
随着科技的发展,语音识别技术不断迭代,逐渐由普通话识别向多语种、方言以及混合语言识别的方向发展,语音识别效果显著提升,满足了多样化的场景需求。
目前业界普遍采用的语音识别系统的核心主要由声学模型、语言模型、解码器三部分构成。语音识别效果的提升,离不开语音厂商对声学模型、语言模型的不断更新优化。
千语千训
“千语千训”是一套融合算法技术与工程服务创新的语音识别自动优化系统,可以将原本由算法工程师承担的工作以自动化执行的方式完成,一方面可以将算法人员从重复性的工作中解放出来,另一方面,可提高语音识别效果、降低模型更新周期和成本。
思必驰依托于“千语千训”系统,可以实现算法人员0人工介入,自动更新模型,实现语音识别系统更新频率从周级到天级的提升。
自动化更新
三大法宝助力语音识别升级
影响语音识别效果的外部因素主要为说话人、周围环境和收音设备,内在因素则是前端的信号处理、特征提取、声学模型、语言模型。语音识别探索之路上,对声音模型、语言模型等模块的训练优化,成为语音厂商的必修课题。
主动学习技术,有效筛选数据
目前,语音识别建模的主流方法是基于深度学习的有监督数据建模,这需要大量带标注的数据供模型进行学习。
随着海量训练数据的应用,语音识别系统已经能够较准确的识别常见语音。但对于“元宇宙”“数字藏品”“栓Q”等新兴领域以及复杂环境下的语音,准确率尚待进一步提高。目前,业内常用的优化方法是及时将这类识别准确率不高的语音进行标注用以训练模型,那么,该如何在海量的线上数据中寻找此类具有训练价值的数据呢?
思必驰采用基于主动学习数据筛选的方法来解决上述问题。通过自监督学习、置信度和神经网络预测等技术结合的方法,快速定位更具价值的数据,经专家标注后用于模型的优化迭代。这种方法既减少了优化模型所需的数据量,降低了成本,又提升了语音识别效果。
混合监督语音识别模型,低成本、高效益
语音识别模型准确率的提高,需要大量的有监督数据对模型进行优化训练,但获取此类有准确标注结果的数据费用较高,周期较长,一定程度上增加了优化语音识别系统的成本。
近年来,半监督训练、自监督训练等技术取得了良好的研究和应用成果,特别是在低资源识别场景中,能够明显提升语音识别优化效果。思必驰融合了有监督、半监督、自监督等方法,提出混合监督优化方案,充分挖掘数据价值,持续优化语音识别模型,获得更好的语音识别效果。
一站式自动化,语音识别系统高频迭代
传统上,语音识别系统中只有热词和定制语言模型部分可以通过自动化手段以较高频率进行优化,而声学模型等其它系统关键模块则因为需要算法专家介入,难以高频更新。
思必驰最新推出的“千语千训”自动优化系统,是一款融合了基于主动学习的数据筛选、自动送标、混合监督声学和语言模型训练、自动化测试和上线发布等功能模块的集成自动化方案。
“千语千训”自动优化系统,全流程只有部分数据标注环节需要人员参与,其余流程均可以自动化完成,实现语音识别模型更新频率从周级到天级的提升,及时优化时效热点话术和难点场景,保证模型与时俱进。
目前,思必驰语音识别技术除可以支持中文普通话外,还可以支持川、粤等十余种方言,以及英语等多种外语,广泛落地于车载、家居、金融、办公等领域。此外,思必驰推出DUI标注训练一体化平台,赋能客户自主优化应用场景中的识别体验。
时间的书页不断被掀开,AI发展日新月异。思必驰语音识别技术不断迈向更准确、更丰富、更智能的道路。未来,思必驰将不断优化语音识别链路策略,进一步缩短通用语音识别模型更新周期,满足不断发展的业务需要,支持更多场景领域。