开源! 清华大学联合A股游戏公司首创多方言AI语音合成框架
南都N视频记者今日获悉,A股游戏上市公司巨人网络集团股份有限公司(002558SZ,以下简称“巨人网络”)旗下AI实验室与清华大学电子工程系SATLab研究团队联合首创多方言语音合成大模型框架DiaMoE-TTS,且数据、代码、方法全开源,旨在推动方言语音合成的公平与普惠。
巨人网络方面对南都记者表示,在当今大模型引领的语音合成时代,通用TTS语音合成系统(Text-to-Speech)已展现出令人惊叹的能力,但方言TTS依然是相关从业者难以触及的“灰色地带”。此次双方联合推出的DiaMoE-TTS,是媲美工业级方言TTS模型的开源全套解决方案。研究团队基于语言学家专业经验,构建统一IPA表达体系,且仅依赖开源方言ASR数据。在推出广东话、四川话、上海话等中文方言版本之前,研究团队已在英语、法语等多语种场景验证,确保方法具备全球多语言可扩展性与稳健性。
近期,巨人网络在AI领域加大布局。10月17日,AI视频企业北京爱诗科技有限公司(以下简称“爱诗科技”)宣布完成1亿元人民币B+轮融资,由复星锐正、同创伟业、顺禧基金等共同投资。值得一提的是,9月10日,爱诗科技完成B轮融资,总金额超过6000万美元,创下国内视频生成领域单次最大融资额。该轮融资由阿里巴巴领投,一众公司纷纷跟投,其中也包括巨人网络。