人工智能、5G、大数据等正影响着各行各业的发展与转型,传统面对面的会议讲座,很多时候已经不能满足当下快速多变的商业环境。在疫情影响下,办公学习正在迎来线上协同、异地连接的方式转变,智慧办公时代已经到来。
线上学习、办公常常面临准确“记录”声音的困扰,因此拾音、降噪、转写等能力显得格外重要。依托麦克风阵列、智能降噪算法、长语音识别……思必驰目前已助力MAXHUB会议平板,飞利浦、纽曼、印象笔记、索尼等品牌录音笔智能化升级。
AI加持,高效学习办公
随着人工智能在各行各业应用深化,AI语音转换文本市场规模空前。
在AI加持下,录音笔、手机、平板电脑等这些录音设备早已不再只是单纯的进行音频记录,它们能直接将音频转写成文字,还能对文字进行编辑和处理,提升工作、学习效率。
众多录音设备中,最常见的是录音笔。
纽曼多款AI录音笔采用思必驰智能录音笔解决方案,录音笔连接到手机端或PC,即可实现音频转写、对话翻译、空间及文本管理等多种功能。印象扫译笔专业版(EverSCAN Pro)采用双麦方案,搭载思必驰AI降噪算法,长语音识别,不同场景下对噪音进行多重优化,清晰降噪,实现长语音实时转写、录音文件转写等功能。
索尼录音笔、飞利浦录音笔、MAXHUB会议平板等产品中目前均内置了思必驰长语音识别服务。
思必驰长语音识别服务支持实时识别与离线识别,识别准确率可达98%(中国信息通信研究院检测,报告编号:V21Y000005)。实时的录音转写功能,无论上课、开会还是采访,用户都能快速准确出稿,极大提升工作、学习效率。
远场+降噪,清晰自然交互
远程会议、线上学习场景,常常需要远场语音交互,并且伴随着环境噪声和人声干扰。尤其在大型会议现场,远距离拾音和噪声尽管不会掩盖正常语音通话,但是影响了清晰度。
针对远场交互和噪声问题,麦克风阵列可以有效抑制噪声。
思必驰麦克风阵列集成波束成形、回声消除、声源定位等算法,可拾取半径5m内的声源,实现360°声源定位,即使会议场景发言人之间远距离从多方位发声,也可以轻松拾音。
另外,新一代的智能降噪技术也是文本语音转写的“法宝”。
传统的噪音抑制方法只能作用于某些固定的稳态噪音,如空调等电器的运转声,而动态噪音如开关门声和人的语音出现频率重叠时,传统方法无法很好地抑制。随着深度学习方法的飞速发展,更强大的深度神经网络被应用于语音识别,包括卷积神经网络(CNN)等。
思必驰智能降噪技术采用“传统分离结合深度学习方案”,可以兼顾传统信号处理的保真性和深度学习的非稳态噪声抑制能力,即在良好去除非稳态噪声的同时保证语音的较小失真,获取纯净录音,转写文本更准确。
说话人识别,AI智能转写
在论坛、大中小型会议、课堂等场景,参会者们滔滔不绝各抒己见,准确区分说话人并分角色输出文本,变成了语音转写文字的一个重要标准。
人的声纹具有特定的唯一性和稳定性,声纹识别可以通过声纹辨别说话人。在上述会议、课堂等多人混合说话场景下,声纹识别的目标是让机器将嘈杂环境下的多个混合说话人的声音分离,识别每个说话人所说的内容并判断每个说话人的身份。
思必驰针对会议、学习场景,智慧办公解决方案对音频的前端处理通过声源分离技术,通过DOA、声纹识别技术辨别说话人,拾音设备可以轻松区分说话人角色,按“角色”转写。
结合算法降噪,盲源分离,提供相对更“干净”的音频文件;自动标点识别、数字化处理等自然语言处理能力,能够让识别结果更加准确、规范。
随着人工智能、云计算、物联网等新兴科技发展,企业纷纷进行智能化战略转型和业务升级,开拓智能时代新蓝海。智慧办公作为AIoT升级和演进方向之一,正在成为推动经济发展、转型升级、社会进步的重要驱动力量。结合长语音识别、声纹识别、AI降噪等,思必驰未来将持续助力企业实现降本增效,成就高效能人士。