Posted in

方言语音克隆哪家强?阿里CosyVoice放大招

没人能想到在AI应用领域,中国公司也终于能弯道超车、扬眉吐气一把。阿里开源的语音大模型CosyVoice(语音生成),主打多语言、情感丰富,支持零样本语音克隆和跨语言转换,光是“更懂中文”这一条,已经全面KO市面上国外同类型模型。

下面就一起来看看吧~

CosyVoice是啥?

CosyVoice 是阿里开源的一款创新的多语言语音生成大模型, 无论是语音质量,还是细节精准度上都表现卓越,能够应对零样本语音生成、跨语言声音合成,还可以模仿非常自然的人类语音,包括笑声、咳嗽和呼吸。

CosyVoice有什么亮点?

  • 高度拟人:生成的语音在语调、韵律、情感表达等方面达到超拟人程度。
  • 多种语言:1.0版本支持中、英、日、韩、粤5种语言。2.0版本还进一步支持四川话、南京话、天津话、武汉话等。(AppMall目前上线的为1.0版本,点击传送。)
  • 多样音色:不同性别、年龄、方言以及各种特色声音,例如笑声、语气词等。
  • 实时高效:出色的响应速度,只需提供3-10s的原始音频,即可克隆生成模拟音色,包括跨语种语音生成。

在哪里可以使用CosyVoice?

CosyVoice现已上线东方超算AI应用商店(访问网址appmall.ai),您可以查看《手把手教你玩转AppMall》,全流程了解如何安装开启站内应用。

CosyVoice非常好的一点就是由于是中国团队开发,因此界面均为中文,降低了用户的理解成本。

我们先来试用一下4种不同的推理模式:

(1)预训练音色

这表示使用系统自带的音色,配合输入合成文本,进行内容的生成。值得注意的是,在生产之前有一个按钮可以选择“是否流式推理”。流式推理是一种实时生成语音的技术,允许模型在处理输入文本时,一边生成音频数据一边实时输出,而不需要等待整个文本处理完成后再生成语音。

流式推理好处就是可以实时生成,应答速度快,更适合智能客服等需要即时回复的场景,但是缺点也比较明显,对文本整体涵义理解内容不够,尤其在跨语种生成的场景下可能会表现不理想,所以在不赶时间的前提下,我们一般选“否”,不使用流式推理。

随机推理种子是一种用于控制语音合成结果随机性的参数。这个数值会改变声音的语调、韵律,呈现出不同的风格和感觉,从而更贴近自然化。可以直接使用随机按钮生成,或者手动键入相关数字均可。

生成结果听上去像偏北京口音的素人男,比较符合自然预警。

(2)3S极速复刻

这个功能就需要实时录制或者上传一款声音文件,源文件要求:不超过30s,采样率不低于16KHZ,然后在下方的prompt文本中输入要说的文字,并点击生成。在这个功能场景下,生成速度比功能(1)略慢。

(3)跨语种复刻

这个功能可谓是CosyVoice最实用的功能,可以让上传的prompt音频源文件的声音,自如地在中、英、日、韩以及各种方言之间切换。

我们先上传一个中文男声的音频,为某知名影星的御用配音音色,然后在【合成文本】框里输入另一种语言,这里选择英语,接着就可以生成了。生成效果非常自然。

(4)自然语言控制

CosyVoice的自然语音控制功能是指能够根据文本内容和用户需求,生成带有不同情感色彩的语音,如悲伤、喜悦、愤怒、温柔等,让语音更具表现力和感染力。

也就是说,这种模式更适合用于一些需要情感表现力的生成情境。例如,在朗读一篇快乐的故事时,CosyVoice可以将悲伤的情绪自然地融入到语音中,使听众更能感受到故事中的情感。

但是目前AppMall的版本不支持该模型,因此暂时还无法直接使用。

以上就是CosyVoice的全部攻略啦,还在等什么,访问传送门,来AppMall一起低价玩转35款潮流AI应用吧。