F5-TTS：语音克隆“六边形战士”上线

还记得特工电影里那些以假乱真的声音克隆吗？现在不用去电影院也能自己玩转黑科技了。上海交通大学、剑桥大学和吉利汽车研究院联合开发了一款全非自回归文本到语音转换系统F5-TTS，利用独特的架构，基于零样本 (Zero-shot) ，即可搞定声音克隆。

下面就让我们一起来看看，这是怎样的神奇应用吧~

F5-TTS有多强？

适用于哪些场景？

可广泛用于内容创作、文化娱乐、在线教育、智能助手等场景。还可以支持单一音频需要多语言并行的场景，可以在不同语言间无缝切换。

在哪使用F5-TTS？

F5-TTS现已上线东方超算AI应用商店（访问网址appmall.ai），您可以查看《手把手教你玩转AppMall》，全流程了解如何安装开启站内应用，一键启动，无论是极客还是小白，都能快速上手。

F5-TTS的界面非常简洁，可以分为基础区和参数优化区。基础区就包括上传声音源文件、输入提示文本（上方），以及生成后的结果区（下方）。

上传的声音源文件可以是mp3、wav等常见音频格式，生成后导出格式则统一为wav。

参数优化区都包括什么？

（1）模型选择

选择F5-TTS模型，或者平台嵌入的另一个语音克隆模型E2-TTS。二者在合成效果方面的区别是：

F5-TTS：合成语音的音色丰富度较好，能较为细腻地模拟不同的音色特点。但在语音的自然流畅度方面，可能会因为多尺度和多模态的融合复杂性，存在一定的提升空间。
E2-TTS：合成语音的自然度较高，能够很好地还原人类语音的韵律和语调。说话人相似度方面表现突出，可准确模拟目标说话人的语音特征。

在实测当中，使用用一位相声演员的音色，输入《报菜名》的文本，在该语境下，E2-TTS的表现更为自然流畅。

F5-TTS生成质感