应用教程

方言语音克隆哪家强？阿里CosyVoice放大招

by AppMall•2025年3月25日2025年7月4日

没人能想到在AI应用领域，中国公司也终于能弯道超车、扬眉吐气一把。阿里开源的语音大模型CosyVoice（语音生成），主打多语言、情感丰富，支持零样本语音克隆和跨语言转换，光是“更懂中文”这一条，已经全面KO市面上国外同类型模型。

下面就一起来看看吧~

CosyVoice是啥？

CosyVoice 是阿里开源的一款创新的多语言语音生成大模型，无论是语音质量，还是细节精准度上都表现卓越，能够应对零样本语音生成、跨语言声音合成，还可以模仿非常自然的人类语音，包括笑声、咳嗽和呼吸。

CosyVoice有什么亮点？

高度拟人：生成的语音在语调、韵律、情感表达等方面达到超拟人程度。
多种语言：1.0版本支持中、英、日、韩、粤5种语言。2.0版本还进一步支持四川话、南京话、天津话、武汉话等。（AppMall目前上线的为1.0版本，点击传送。）
多样音色：不同性别、年龄、方言以及各种特色声音，例如笑声、语气词等。
实时高效：出色的响应速度，只需提供3-10s的原始音频，即可克隆生成模拟音色，包括跨语种语音生成。

在哪里可以使用CosyVoice？

CosyVoice现已上线东方超算AI应用商店（访问网址appmall.ai），您可以查看《手把手教你玩转AppMall》，全流程了解如何安装开启站内应用。

CosyVoice非常好的一点就是由于是中国团队开发，因此界面均为中文，降低了用户的理解成本。

我们先来试用一下4种不同的推理模式：

（1）预训练音色

这表示使用系统自带的音色，配合输入合成文本，进行内容的生成。值得注意的是，在生产之前有一个按钮可以选择“是否流式推理”。流式推理是一种实时生成语音的技术，允许模型在处理输入文本时，一边生成音频数据一边实时输出，而不需要等待整个文本处理完成后再生成语音。

流式推理好处就是可以实时生成，应答速度快，更适合智能客服等需要即时回复的场景，但是缺点也比较明显，对文本整体涵义理解内容不够，尤其在跨语种生成的场景下可能会表现不理想，所以在不赶时间的前提下，我们一般选“否”，不使用流式推理。

随机推理种子是一种用于控制语音合成结果随机性的参数。这个数值会改变声音的语调、韵律，呈现出不同的风格和感觉，从而更贴近自然化。可以直接使用随机按钮生成，或者手动键入相关数字均可。

生成结果听上去像偏北京口音的素人男，比较符合自然预警。

（2）3S极速复刻

这个功能就需要实时录制或者上传一款声音文件，源文件要求：不超过30s，采样率不低于16KHZ，然后在下方的prompt文本中输入要说的文字，并点击生成。在这个功能场景下，生成速度比功能（1）略慢。

（3）跨语种复刻

这个功能可谓是CosyVoice最实用的功能，可以让上传的prompt音频源文件的声音，自如地在中、英、日、韩以及各种方言之间切换。

我们先上传一个中文男声的音频，为某知名影星的御用配音音色，然后在【合成文本】框里输入另一种语言，这里选择英语，接着就可以生成了。生成效果非常自然。

（4）自然语言控制

CosyVoice的自然语音控制功能是指能够根据文本内容和用户需求，生成带有不同情感色彩的语音，如悲伤、喜悦、愤怒、温柔等，让语音更具表现力和感染力。

也就是说，这种模式更适合用于一些需要情感表现力的生成情境。例如，在朗读一篇快乐的故事时，CosyVoice可以将悲伤的情绪自然地融入到语音中，使听众更能感受到故事中的情感。

但是目前AppMall的版本不支持该模型，因此暂时还无法直接使用。

以上就是CosyVoice的全部攻略啦，还在等什么，访问传送门，来AppMall一起低价玩转35款潮流AI应用吧。

More by AppMall