Posted in

IndexTTS:B站放大招,AI语音“活人感”拉满

继去年发布等2款自研大语言模型之后,B站不久前又放出大招,推出文本转语音(Text To Speech,缩写为TTS)模型IndexTTS。论文称,其在性能方面超过CosyVoice2、Fish-Speech 和 F5-TTS 等当前主流TTS。

目前IndexTTS已经上线appmall.ai,一键安装、即可在线使用。今天就来通过实测看看,这款让AI发音拉满“活人感”,甚至能化身“语文老师”,自动为用户纠正拼音、更正断句的应用,怎么用起来?

(1)普通模式:界面友好,速度极快

IndexTTS的用户界面简洁,好久没在AI模型里看到满屏的中文了。B站等国内开发者推出的大模型这点是一大优势,不仅使用层面对国内用户非常友好,对于中文语音、语义的理解也比国外模型更胜一筹。

我们可以看到,IndexTTS提供两种推理模式:普通推理、批次推理,后者更适合复杂的长句。我们先测试下普通场景。

由于它的优势在于自然语调和拼音的矫正,因此测试一,我们先输入一段提示词:【大家好,我现在正在AppMall 体验AI工具,说shi3话,来之前我绝对想不到!这么多好玩的工具简直666。】

这段提示词包含中文、英文、拼音(且故意标记错误),以及口语化表达。来看下使用系统默认参考音频的输出效果。

首先生成速度极快,只用了3秒就产出了结果。其次从音频可以听出来,AppMall、AI这两个词的英文发音准确,未产生任何错误;有真人自带的声纹特色(和参考音频一致),有重音(比如“绝对”“这么多”),尾音结束自然不突兀,表现很好。

(2)Hard模式:批次推理能胜任

测试二,我们上传一段1:26音频,以及更复杂语义的文字,使用批次推理模式,整体测试IndexTTS对声纹的复刻效果。

提示词:【东方超算发布AppMall(访问网址appmall.ai),已上线40 +款AI 应用,涵盖火爆全网的万相2.1、SkyReels、FaceFusion等AI绘图、AI换脸、AI对话、AI语音、AI视频应用,按分钟计费(仅需2.3 元/h),助力 AI 普惠。】

从结果来看,加分项是:声音复刻效果较好,一致性非常好;“2.3 元/h”自动朗读成“每小时2.3元”,对语义的理解非常到位。

减分项是:AppMall的发音不够准确;网址“.ai”完全读错;中间“AI绘图、AI换脸、AI对话”一串需要中英文切换的内容,朗读卡顿、且AI发音不准确。

(3)超纲模式:AI直接替打工

测试三,我们告别口语场景,上传一段新闻播报切片参考音频+一段正式文稿,看下IndexTTS在正式场景的表现如何。

提示词:【工业和信息化部数据显示:今年前4月,我国规模以上互联网和相关服务企业完成互联网业务收入5970亿元,同比增长1.5%。研发经费稳步提升。前4月,规模以上互联忘企业共投入研发经费291.5亿元,同比增长4.8%,增速较一季度提高0.2个百分点;实现利润417.3亿元。】故意留了一个错别字,看能否自动纠正。

从结果来看,虽然错别字没有自动纠正(对AI来说还是太复杂了),但是语音、语调、断句,都非常匹配上传的新闻播报的调性,但从生成结果来听,完全就是一位新闻主播在进行内容播报,毫无AI痕迹。

(4)主流AI语音工具哪家强?

目前主流的AI语音工具,按照功能类型可以分为文生语音/文本转语音、语音克隆、AI变音等,可以点击CosyVoiceFishSpeechF5-TTSChatTTSMockingBirdGPT-SoVITS详细了解每个应用的使用攻略。

这些应用均已上线appmall.ai,价格低至2.3元/每小时,既可以一键安装、在线体验、灵活互换,按分钟计费,停用不扣费。上述工具的整体横向对比,可以查看《社恐新嘴替:7款AI语音工具哪家强?》。

怎么样,看下来是不是非常动心呢?还在等什么,快来玩转IndexTTS吧~