还记得特工电影里那些以假乱真的声音克隆吗?现在不用去电影院也能自己玩转黑科技了。上海交通大学、剑桥大学和吉利汽车研究院联合开发了一款全非自回归文本到语音转换系统F5-TTS,利用独特的架构,基于零样本 (Zero-shot) ,即可搞定声音克隆。
下面就让我们一起来看看,这是怎样的神奇应用吧~

F5-TTS有多强?
- 零样本生成:只需一小段音频,即可生成高质量的语音,尤其适合处理新语言或未见过的语音风格。
- 语速可控:想快就快,想慢就慢,不同的语速来应对不同的叙事节奏。
- 多语言切换:支持处理混合语言输入,可以在语句中无缝切换多种语言。
- 多情感表达:支持不同情感的语音生成,如愉悦、悲伤、愤怒等,表现力更强。
- 双人对话:允许设置两个角色进行对话,方便创作对话类内容。
适用于哪些场景?
可广泛用于内容创作、文化娱乐、在线教育、智能助手等场景。还可以支持单一音频需要多语言并行的场景,可以在不同语言间无缝切换。
在哪使用F5-TTS?

F5-TTS现已上线东方超算AI应用商店(访问网址appmall.ai),您可以查看《手把手教你玩转AppMall》,全流程了解如何安装开启站内应用,一键启动,无论是极客还是小白,都能快速上手。
F5-TTS的界面非常简洁,可以分为基础区和参数优化区。基础区就包括上传声音源文件、输入提示文本(上方),以及生成后的结果区(下方)。
上传的声音源文件可以是mp3、wav等常见音频格式,生成后导出格式则统一为wav。
参数优化区都包括什么?
(1)模型选择

选择F5-TTS模型,或者平台嵌入的另一个语音克隆模型E2-TTS。二者在合成效果方面的区别是:
- F5-TTS:合成语音的音色丰富度较好,能较为细腻地模拟不同的音色特点。但在语音的自然流畅度方面,可能会因为多尺度和多模态的融合复杂性,存在一定的提升空间。
- E2-TTS:合成语音的自然度较高,能够很好地还原人类语音的韵律和语调。说话人相似度方面表现突出,可准确模拟目标说话人的语音特征。
在实测当中,使用用一位相声演员的音色,输入《报菜名》的文本,在该语境下,E2-TTS的表现更为自然流畅。
F5-TTS生成质感
E2-TTS生成质感
(2)优化参数

现在,访问这个页面 ,即可一键开启F5-TTS试用。还在等什么?快来appmall.ai,探索更多AI应用的可能吧~