为加速大模型的行业落地应用,打造好用的大模型解决方案产品,聆思基于CSK6系芯片打造了【芯+云+大模型】的全新语音交互解决方案,不仅与星火V3.0实现了对接,更实现了语音全链路1.5秒的超快响应速度。
芯+云+大模型
全新语音交互解决方案
在端侧,CSK6系芯片通过设计专门的神经网络处理器(NPU),对FFT计算、FIR/IIR滤波器、语音特征提取、卷积神经网络、DNN、LSTM、激活函数等语音降噪和语音识别必要的高热点算子进行硬件定制加速,实现了低时钟频率下的高算力要求;
通过设计模块独立时钟开关和多级感知专用电路,实现了选择性地开关不同的外设模块电源,以及VAD功耗和唤醒效果之间的平衡;
通过MCU+DSP+NPU的组合,实现了行业应用、音频编解码和神经网络计算三者的专核专用和并行处理,能够充分发挥端侧AI效果,最终实现离线响应速度≤200ms。
在云端,ASR技术配合了能量与模型结合的VAD算法,不仅降低了误截断,且提高了响应速度,同时拥有着98%的识别准确率。在语义理解层面,实现了传统技能和大型模型应用的智能决策调用,以迅速满足用户不同场景的需求。
而其中最具创新之处在于,我们创新性的打造了大型模型的流式文本语音合成(Streaming – TTS)技术,实现了流畅的语音返回,从而达到快速响应。与市面上主流方案通常需要5至8秒的响应时间相比,我们的语音全链路响应速度仅需1.5秒,为用户带来了顺畅的使用体验。
为提供更好的开发体验,聆思语音开发套件同步升级,已成功接入星火V3.0接口,实现上述升级能力。现在,通过聆思最新的语音开发套件,便可以快速实现基于最新3.0版本大模型的产品开发与体验。在此次升级后,复杂语义理解、逻辑推理、多轮对话等多方面深层次的交互效果实现了大幅提升。
聆思打造可落地的CSK6系语音解决方案,赋予了大模型极强的感知能力,让人与机器的每一次交互更加自然、精确。
那么,接入了星火大模型V3.0后,全新升级的CSK6系语音交互解决方案,到底带来了哪些应用场景的体验感提升呢?
语言理解能力提升,信息处理更精准
星火大模型V3.0在语言理解方面的最新进展包括了 6% 的提升,这一跃升意味着该模型在理解和处理语言信息方面更加高效和精准。这种提升不仅仅是数字的变化,它反映出AI在理解语境、掌握语言细节方面的实质性进步。
具体来说,这种能力提升让星火大模型能更准确地捕捉到对话中的细微差别,更好地理解不同语境下词语的多样含义。这对于处理复杂对话、理解非直接表述的情感和意图尤为重要,使得AI能够更好地适应多样化的交流需求。
逻辑推理能力提升,问题分析更智能
逻辑推理能力实现 8% 的大幅提升,这代表着AI对各种复杂对话的理解能力有了质的改变,不再局限于既设问题的一问一答,而是可以根据已有知识点,对提问进行综合分析与判断,给出合理答案。
能力升级后,用户可以一句话包含多重指令,由大模型主动识别指令给出多重判断;可以提问更加开放性的问题,由大模型经过综合分析后给出多种可能性选项。总而言之,从单一对话到主动思考,将会赋予终端设备更加智能化的大脑,带给用户更深层次的交互体验。
上下文理解能力提升,多轮对话理解更强
星火大模型V3.0在语言理解方面的能力持续突破,上下文理解的能力实现了大幅度提升,能够实现无限制的多轮对话。通过连续性的对话,上下文的综合理解,逐层引导启发,让人机交互的体验更加自然和连贯。
在此基础上,聆思针对家电家居领域的专业知识做了进一步的优化,使得特定场景的对话更具专业性和准确性,能够为每个家庭提供更加高效的智能服务。
星火V3.0加持,知识库问答更准确
作为方案核心能力之一的“知识库问答”,通过专业知识库的构建,如说明书、应用指南等,能够赋予设备更加全面准确的专业知识,让设备的回答更加精准。
而且还可以支持深度表格解析,自动引用图片,准确溯源信息等,不仅能够大幅简化知识库构建的难度,同时能够让前端的交互体验更加直观简洁。
在星火大模型V3.0的加持下,知识库问答的准确率大幅提升,平均准确率已可达到95%。能够专业准确地回答用户问题,有力地满足智能客服、问询机器人等各类专业问答场景的需求。