作为国内专业的对话式人工智能平台型企业,思必驰自主研发了全链路智能对话系统,涵盖声学信号处理、语音识别与合成、性别/年龄/声纹识别、自然语言理解、知识图谱、对话管理、智能交互决策等技术链条。
思必驰在专注挖掘场景需求、不断提升整体系统智能的同时,也关注单点技术的持续创新与突破。比如在语音合成领域,思必驰近年来率先推出多项技术,持续给客户和终端用户带来更人性化、智能化的体验。
2022年,发布单人千音,实现单个音色就能生成同时覆盖多种语言、多种风格的语音合成声音,极大丰富了合成语音的表现力;
2022年,推出发音人音色定制平台,支持客户自主完成语音合成音色模型定制,降低语音合成定制门槛;
2022年,针对智能客服推出高情感、高拟人度的“多情感TTS”;
2022年,发布“千语千训”系统,零人工介入、自动更新模型,语音识别系统更新频率实现了从周级到天级的跨越;
2023年,发布“声音复刻”技术,仅需录制一句话即可复刻出自己的音色,支持任意文本的朗读;
2023年,发布自然场景数字人生成技术,个性化对话生成与语音合成模型无缝结合,构建可自由交互的个性化IP;
2023年,发布支持基于生成扩散模型的零样本高质量语音编辑,支持中文及英文,能够像文本一样去修改音频……
而今天,思必驰又推出了一项全新的技术:超自然语音合成,即基于语音特征离散化技术和大语言模型等,降低预测连续语音特征的难度,还原真人说话细微的韵律特点、发音口癖,让合成效果更加自然、真实且富有表现力。该项技术适用于AI数字人、新闻播报、智能客服、智能助理等众多应用场景。
拿捏真人说话的“艺术”,高度还原细节
与传统TTS生成声音的刻板、不接地气、缺乏真人声音的抑扬顿挫等相比,超自然语音合成的最大特点就是能够高度还原真人说话时的细节,特别是语气词、吸气声、停顿等。
当我们和朋友聊天时,语气词、吸气声、停顿以及字音拖长等语言现象经常出现,这些语言现象并不是随意的,而是自然而然产生的:
“啊”、“哦”、“嗯”等语气词能够传达说话人的情绪,吸气声表现了说话人在思考或准备说话时的心理状态,犹豫时的停顿反映了说话人的不确定性,字音拖长则强调了某个词语的重要性……
当细微的韵律特点和发音口癖被还原时,你能感受到语音的生动性和自然性,仿佛是在与真实的人进行交流。
以银行智能客服场景为例,用户感受到的是与“真人”沟通的亲切感和舒适度。
然而,要实现这样完美的语音合成效果并不容易,需要先进的语音处理技术和大量的真实语音数据来训练合成模型。与此同时,还需要对语音学和语言学有深入的理解,以便能够准确地捕捉和复现语音中的细微差别。
关键技术创新突破,捕捉真人语音特点
为了还原真人说话效果,思必驰对韵律的多样性进行了深入研究,并将语音特征离散化应用到语音合成领域。
语音特征离散化是指将连续的语音信号转换为一系列离散值的过程。这种离散值通过使用自监督(Self-Supervised Learning,SSL)模型提取得到,而自监督模型则使用海量语音数据训练得到。在语音生成的过程中,用声音模型将文本转换成语音特征,离散化处理可以降低模型预测连续语音特征的难度,使其更容易捕捉到自然和多样化语音的特点。
2022 年 4 月份,思必驰首席科学家、上海交通大学计算机系教授俞凯博士带领的研究团队发表了将语音特征离散化技术应用于文本到语音生成的关键成果,即《 VQTTS: High-Fidelity Text-to-Speech Synthesis with SelfSupervised VQ Acoustic Feature 》,这是业界首次将语音特征离散化应用于从文本到语音生成的建模,使语音生成效果取得了突破性进展。
在思必驰和上海交通大学计算机系跨媒体语言智能实验室的共同努力下,基于VQTTS 技术的思必驰情感音色悦悦取得了高达 4.7 的 MOS 分数,达到业内一流水平。
思必驰也将VQTTS 技术应用于超自然语音合成,结合大语言模型技术的成果,以及海量自然风格的数据,思必驰超自然语音合成技术可以更好地捕捉语言的韵律和语调,从而生成更贴近人类发音的语音。
全新的语音交互体验,赋能千行百业多场景
罗伊·泽扎纳在《未来生活简史》一书中提到,三场科技革命将在未来改变人类的工作、生活和思维方式。这三场革命分别是:个性化制造革命、智能革命和生物革命。在智能革命中,计算机开始模仿人类的部分语言和思维能力,人类也在此过程中得到提升。
思必驰DFM-2大模型已经在智能家居、电商客服、在线教育、智能汽车等众多场景落地应用,基于语音大模型技术的超自然语音合成,将让更多产品具有更好的人机交互体验,让更多用户体验到了科技创新的成果:
在线上教学场景中,学生可以听到自然、流畅且富有感情的授课内容,激发学习热情;在居家生活场景中,不仅能分享自己的喜怒哀乐,还能得到“真人”情感上的安慰和支持。
每一次科技进步,都让人类的生活更美好。基于超自然语音合成技术,思必驰成将为千行百业的不同场景提供“真人”个性化声音,助力开启全新的语音交互之旅。