近期,思必驰TTS技术上线语音编辑功能。语音编辑,即在一段语音中间插入语音内容,或根据之前的语音风格续写,使得插入或续写的语音内容与之前的语音风格完美融合,带给用户更自然、流畅的语音服务体验。
该技术可应用于自媒体语音修正,轨交、电商、快递、银行等行业中的智能客服语音播报场景,目前,思必驰语音编辑支持中文语音编辑及英文语音编辑。
语音编辑,像文本一样修改音频
日常生活中,如音频中所展示的智能客服已被广泛应用于快递、银行、电商等行业场景中,为行业降本增效带来显著作用。厂商通过语音编辑技术,仅需对固定话术中的人名、数字等变量进行替换,便可获得针对不同用户的差异性播报语音,批量通知用户,大大提高了生产效率。
在语音编辑过程中,最大的挑战就是如何使得编辑后的语音接近原有音频的自然和流畅。情感的细微差别、语调变化、节奏等稍有不连贯,听众便能从中听出明显的语音差异。因此,为了让此类编辑后的语音播报更自然,人类不断优化语音合成技术水平。
思必驰对语音编辑技术优化更新,应用深度合成技术,基于大模型实现零样本高质量语音编辑,可对中英文语音进行插入文本、根据之前风格续写等操作。经思必驰语音编辑后的语音更流畅、更自然,带给用户媲美原声的听觉体验。
适用各种场景,音频创作更高效
目前,语音编辑已经应用于快递、电商、银行等场景的智能客服以及自媒体短视频配音修正中,为各行各业带来更自然的语音服务。
智能客服固定话术修改变量
在快递、电商、银行、轨交等场景的智能客服中,常常需要用到固定话术,但与用户通话时,固定话术需要根据不同用户、场景对其中的变量进行修改。如:
应用场景
张先生您好,请到楼下凭取件码123取件;
王女士您好,您近日在我店铺购买的商品,如果满意请给5分好评;
刘先生您好,您的信用卡还款日为8月15日,请记得及时还款;
苏州街站到了,请带好随身物品准备下车;
北京,天气晴转多云,气温25-30℃。
在此类语音播报中,应用思必驰语音编辑技术,可对固定话术中的人名、地名、数字、日期等变量进行编辑,从而快速获得接近原声的语音,满足不同用户、场景需求。
短视频博主在视频创作过程中,视频素材往往有口误、词不达意或冗余的内容,此时,重新对某一句话进行配音,则很难还原当时的环境音,出现该句配音与其他音频存在些许差异的情况。如果对视频一帧一帧进行修改,则需要花费大量时间。
在修改音频时,使用思必驰语音编辑技术,可对个别字词及冗余内容进行替换,替换后的字词可完美融入之前的语音环境,降低语音编辑前后的差异性,获得更自然、流畅的语音。
为了保证语音编辑技术合法使用,思必驰可通过声纹识别对用户上传的公众人物、敏感话题等音频进行屏蔽,拒绝编辑合成,保证技术安全。
除语音编辑外,思必驰声音复刻、本地合成、情感音色合成等多项语音合成技术都迎来更新,敬请期待!
未来,思必驰将基于DFM-2大模型,结合语音合成技术进行技术联动,为智能汽车、智能家居、消费电子,以及金融、轨交、政务等数字政企行业场景客户带来更加自然、流畅的语音交互服务。