By 小墨
2026年4月1日
21
715
突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术
近年来,零样本语音克隆技术取得了显著进展,但在保持高保真音色与可懂度之间始终存在权衡。传统主流TTS系统采用“曲线救国”策略:先将音频压缩为梅尔频谱图等中间表征,再依赖神经声码器将特征“翻译”回波形。这种级联架构虽然在工程上可行,但每一次转换都带来信息损失与误差累积,最终导致合成语音丢失高保真、个性化的音色细节。
Wav-VAE:高效波形压缩与重建
为破解这一技术瓶颈,美团LongCat团队正式发布LongCat-AudioDiT模型。该模型彻底抛弃梅尔谱等中间表示,直接在波形潜空间进行基于扩散模型的文本转语音(TTS),从根源阻断数据转换的级联误差。LongCat-AudioDiT仅使用一个波形变分自编码器(Wav-VAE)和一个扩散Transformer(DiT),在波形隐空间里完成声音的压缩、建模与重建。
文本编码与条件流匹配
Wav-VAE作为全卷积音频自编码器,将原始24kHz波形压缩到约11.7Hz的帧率,压缩比超过2000倍。其架构蕴含多项关键创新:多级Oobleck块实现层级下采样,捕获从局部到全局的时序依赖;非参数捷径分支为激进下采样提供梯度直通路,大幅提升收敛稳定性;对抗式多目标训练融合STFT损失、梅尔损失、L1损失与判别器对抗损失,确保重建波形既保持精确时频结构,又具备自然听感。
能不能让 AI 直接学会声音本身的规律,跳过中间环节?
“技术观察”推理优化:训练-推理匹配与自适应投影引导
在文本编码方面,LongCat-AudioDiT采用支持107种语言的UMT5。一个关键发现是:仅使用最后一层隐藏状态无法生成可懂语音,因高层语义抽象丢失了词法、音素线索。团队创新性地将原始词嵌入(第一层)与最后一层隐藏状态相加,经LayerNorm平衡后送入后续模块,大幅提升了语音可懂度。DiT骨干网络则集成了全局自适应层归一化、QK-Norm与RoPE稳定注意力训练等多项结构优化。
模型首次发现并解决了流匹配TTS中长期存在的训练-推理不匹配问题。训练时仅在掩码区域计算损失,提示区域不参与优化;推理时提示区域却自由演化,导致音色漂移。针对这一问题,团队提出双重约束机制:强制重置提示区域隐变量为理论真值,并在计算无条件速度场时移除提示区域输入。此外,自适应投影引导(APG)取代传统无分类器引导(CFG),将引导信号分解为平行与正交分量,保留有益部分、抑制劣化部分,在提升自然度的同时避免音质损失。
实验发现一个有趣现象:VAE重建质量越好并不等同于语音生成效果越好。单纯追求高重建分数会导致潜空间维度膨胀,使下游扩散模型难以学习。经过系统性对比不同配置,最终确定64维潜在维度+11.7Hz帧率为最优配置,平衡了重建保真度与生成质量。
如有侵权,请联系删除。
Related Articles
-
Fri Apr 17 2026湖北省智能体公共服务平台启动建设 AI产业有了'公共底座'!
在2026年湖北人工智能产业发展生态大会上,湖北省智能体公共服务平台正式启动建设,目标是解决企业算力成本高、场景落地慢等痛点。
-
Fri Apr 17 2026OpenClaw龙虾、Token词元与大模型、智能体、AI发展新范式全景解析,年度AI大会终极议程公布
2026中国生成式AI大会(北京站)将于4月21-22日举办,主题为“奔赴AGI 重塑未来”,旨在汇聚学界与产业界力量,探讨生成式AI与智能体发展的新范式。
-
Fri Apr 17 2026Pharma.AI 2026春季发布会:驱动制药超级智能未来
英矽智能于4月14日举办Pharma.AI 2026春季发布会,展示在制药领域的最新AI能力与产品模块升级,强调构建决策驱动的AI生态系统。
-
Fri Apr 17 2026深信服受邀分享AI智能体安全治理'新解法'
在2026年世界互联网大会亚太峰会上,深信服副总裁杜智伟提出面向AI智能体的安全治理新范式,强调从内容合规向行为可控转型。
-
Fri Apr 17 2026AI生成内容暴增14倍 重塑网络视听生产体系
《中国网络视听发展研究报告(2026)》显示,我国网络视听用户规模与市场规模持续扩大,AI生成内容数量激增,正在改变内容生产与传播格局。
-
Fri Apr 17 2026深信服受邀分享AI智能体安全治理'新解法'
在2026年世界互联网大会亚太峰会上,深信服副总裁杜智伟就AI智能体安全治理发表演讲,强调应从传统的内容合规向行为可控的治理范式转型,以应对新一代数字员工类智能体带来的复杂风险。
