突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

2026年4月1日

21

715

突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

近年来,零样本语音克隆技术取得了显著进展,但在保持高保真音色与可懂度之间始终存在权衡。传统主流TTS系统采用“曲线救国”策略:先将音频压缩为梅尔频谱图等中间表征,再依赖神经声码器将特征“翻译”回波形。这种级联架构虽然在工程上可行,但每一次转换都带来信息损失与误差累积,最终导致合成语音丢失高保真、个性化的音色细节。

Wav-VAE:高效波形压缩与重建

为破解这一技术瓶颈,美团LongCat团队正式发布LongCat-AudioDiT模型。该模型彻底抛弃梅尔谱等中间表示,直接在波形潜空间进行基于扩散模型的文本转语音(TTS),从根源阻断数据转换的级联误差。LongCat-AudioDiT仅使用一个波形变分自编码器(Wav-VAE)和一个扩散Transformer(DiT),在波形隐空间里完成声音的压缩、建模与重建。

文本编码与条件流匹配

Wav-VAE作为全卷积音频自编码器,将原始24kHz波形压缩到约11.7Hz的帧率,压缩比超过2000倍。其架构蕴含多项关键创新:多级Oobleck块实现层级下采样,捕获从局部到全局的时序依赖;非参数捷径分支为激进下采样提供梯度直通路,大幅提升收敛稳定性;对抗式多目标训练融合STFT损失、梅尔损失、L1损失与判别器对抗损失,确保重建波形既保持精确时频结构,又具备自然听感。

能不能让 AI 直接学会声音本身的规律,跳过中间环节?

“技术观察”

推理优化:训练-推理匹配与自适应投影引导

在文本编码方面,LongCat-AudioDiT采用支持107种语言的UMT5。一个关键发现是:仅使用最后一层隐藏状态无法生成可懂语音,因高层语义抽象丢失了词法、音素线索。团队创新性地将原始词嵌入(第一层)与最后一层隐藏状态相加,经LayerNorm平衡后送入后续模块,大幅提升了语音可懂度。DiT骨干网络则集成了全局自适应层归一化、QK-Norm与RoPE稳定注意力训练等多项结构优化。

模型首次发现并解决了流匹配TTS中长期存在的训练-推理不匹配问题。训练时仅在掩码区域计算损失,提示区域不参与优化;推理时提示区域却自由演化,导致音色漂移。针对这一问题,团队提出双重约束机制:强制重置提示区域隐变量为理论真值,并在计算无条件速度场时移除提示区域输入。此外,自适应投影引导(APG)取代传统无分类器引导(CFG),将引导信号分解为平行与正交分量,保留有益部分、抑制劣化部分,在提升自然度的同时避免音质损失。

实验发现一个有趣现象:VAE重建质量越好并不等同于语音生成效果越好。单纯追求高重建分数会导致潜空间维度膨胀,使下游扩散模型难以学习。经过系统性对比不同配置,最终确定64维潜在维度+11.7Hz帧率为最优配置,平衡了重建保真度与生成质量。

如有侵权,请联系删除。

Related Articles

联系我们 预约演示
小墨 AI