Bendi新闻
>
首个支持普通话和方言混说的TTS大模型:河南话、上海话、粤语说得溜
首个支持普通话和方言混说的TTS大模型:河南话、上海话、粤语说得溜
3月前
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
ArXiv: https://arxiv.org/pdf/2408.00284 Homepage: https://giantailab.github.io/bailingtts_tech_report/index.html 论文标题:Bailing-TTS: Chinese Dialectal Speech Synthesis Towards Human-like Spontaneous Representation
汴水东流无限春,隋家宫阙已成尘。行人莫上长堤望,风起杨花愁杀人。
我嘞爱好也可多了,好听豫剧,那腔调儿,听着得劲儿嘞很。没事嘞时候我也好出去溜达溜达,逛逛俺河南嘞大好风光。我还好捣鼓点儿吃嘞,像那烩面呀、胡辣汤呀,你别说,我自己做嘞也可像回事儿。
实验结果
Bailing-TTS 在普通话、多种方言的鲁棒性、生成质量、自然度上已达到与真人较为接近的水平。
表 1 Bailing-TTS 在中文普通话、方言上的测试结果
在实际的应用场景测评中,Baling-TTS 均取得了不错的效果。
表 2 Bailing-TTS 在中文普通话、方言上的说话人微调和零样本克隆的测试结果
团队介绍
巨人 AI 实验室成立于 2022 年,是隶属于巨人网络的人工智能技术应用与研究机构。致力于面向 AIGC 内容(图像 / 文本 / 音视频 / 3D 模型等)生成领域,实现内容生产创作全面智能化,推动游戏玩法创新。目前,实验室已在巨人内部构建起全链路 AI 工业化生产管线,同时完成游戏行业内首个垂类大模型(GiantGPT)备案,率先投入商业化应用。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
来源:机器之心
相关新闻
中国电信发布首个支持30种方言混说语音大模型;奥飞娱乐发布“喜羊羊”首款AI智能产品,大电影预计年内上映丨AIGC日报专治大模型说胡话,精确率100%!华科等提出首个「故障token」检测/分类方法幻方量化开源国内首个MoE大模型,全新架构、免费商用Stability AI开年首个大模型:专写代码,支持18种编程语言,上下文100K,苹果笔记本离线就能跑支持百亿参数大模型、卢伟冰现场官宣小米首发,高通骁龙8s Gen3发布行业首发!一句话用AI创作视频画本、漫画,网民脑洞要停不住了!中国电信开源星辰AI大模型:央企中首个完成LLM研发和开源的选手诞生1.8B参数,阿里云首个联合DNA、RNA、蛋白质的生物大模型,涵盖16.9W物种上交、清华联合发布rLLM,业界首个关系表格大模型算法库降低首付和商贷利率、放松限购……上海官宣:明起施行!今日arXiv最热大模型论文:首个面向AI的python编程框架,提升大模型编程能力新思路重磅! 李强签署国务院令, 公布一重要条例; 同日官宣! 广州、深圳楼市大动作; 首个未成年游戏退费标准发布AI早知道|业内首个多方言语音识别大模型;苹果 Safari 18浏览器 AI 功能曝光长三角成首选、科技大厂受青睐:领英发布2024留学生归国求职报告!成立半年就敢踢馆 OpenAI ,首个开源模型不输 GPT-4o,LeCun 、PyTorch 之父齐声叫好!帮你换新热水器、电炉!纽约成全美首个联邦支持节能项目 最高返利$1.4万AI早知道|谷歌推出文生视频模型Veo;百度发布全球首个支持 L4 级自动驾驶的大模型Neuralink首个脑机接口患者:打游戏、搞研究两不误,重获自主能力清华等高校推出首个开源大模型水印工具包MarkLLM,支持近10种最新水印算法西浦、利物浦大学提出:点云数据增强首个全面综述突发!大减19%!加拿大颁布首个工签、学签限制令!Llama3比GPT-4o更爱说谎,首个大模型“诚实性”评估基准来了 | 上海交大通义大模型成巴黎奥运会首个AI大模型应用技术提供方;保时捷CEO:接受中国销量下降,不会加入价格战....重磅!加拿大颁布首个工签、学签、旅游签限制令!以后签证难度加大!网友:再也不是移民天堂