blog details

2024年8月13日

11

256

首个支持普通话和方言混说的TTS大模型:支持河南话、上海话、粤语

自2024年GPT-4o出现以来,AI解决方案领域迅速迎来了热潮,各大公司纷纷投入大量资源研发TTS大模型。近期,中文语音合成大模型如chattts、seedtts、cosyvoice等层出不穷。虽然这些模型在中文普通话的语音合成效果上已几乎达到真人水平,但在中国复杂多样的方言领域,TTS大模型的进展较为缓慢。训练一个能够覆盖所有中文方言的统一语音合成大模型仍是巨大的挑战。

为了解决这一问题,巨人网络AI Lab团队的算法专家和语言学家采用AI定制开发策略,基于中国方言体系,构建了涵盖20种方言、超过20万小时的普通话和方言数据集。通过这一庞大的数据集,我们成功训练出了第一个支持多种普通话方言混说的TTS大模型——Bailing-TTS。该模型不仅能生成高质量的普通话语音,还支持包括河南话、上海话、粤语等在内的多种方言语音。

如何解决

为了实现这一目标,团队采取了多项创新技术。其中包括统一的方言Token规范、精细化Token对齐技术、层次混合专家结构以及层次强化学习增强策略。这些技术的结合,不仅提升了模型的性能,也大大降低了开发成本,符合AI企业解决方案的最佳实践。

自 2024 年 GPT-4o 出现以来,业内各公司纷纷投入巨大的资源进行 TTS大模型的研发。

“智东西”

多项创新技术

Bailing-TTS的多方言支持将极大促进教培行业AI应用,特别是在语言教学中。种多方言语音合成技术将为教育行业提供创新的AI解决方案。多方言支持的TTS模型可以优化税务行业知识问答AI系统,提升用户体验。此项目显著推进了大型语言模型开发技术,特别是在多方言的支持方面。

通过先进的多方言语音合成技术,企业可以显著提升工作效率。多方言支持的TTS技术可以提高ChatGPT在企业中的应用效果。Bailing-TTS的多方言支持技术可作为Langchain框架AI开发的成功案例。巨人网络AI Lab通过这一项目展示了其在AI定制开发方面的顶尖水平。

如有侵权,请联系删除。

Related Articles