2026年4月1日

715

突破零样本TTS音色克隆上限：LongCat-AudioDiT 的声音克隆艺术

近年来，零样本语音克隆技术取得了显著进展，但在保持高保真音色与可懂度之间始终存在权衡。传统主流TTS系统采用“曲线救国”策略：先将音频压缩为梅尔频谱图等中间表征，再依赖神经声码器将特征“翻译”回波形。这种级联架构虽然在工程上可行，但每一次转换都带来信息损失与误差累积，最终导致合成语音丢失高保真、个性化的音色细节。

Wav-VAE：高效波形压缩与重建

为破解这一技术瓶颈，美团LongCat团队正式发布LongCat-AudioDiT模型。该模型彻底抛弃梅尔谱等中间表示，直接在波形潜空间进行基于扩散模型的文本转语音（TTS），从根源阻断数据转换的级联误差。LongCat-AudioDiT仅使用一个波形变分自编码器（Wav-VAE）和一个扩散Transformer（DiT），在波形隐空间里完成声音的压缩、建模与重建。

文本编码与条件流匹配

Wav-VAE作为全卷积音频自编码器，将原始24kHz波形压缩到约11.7Hz的帧率，压缩比超过2000倍。其架构蕴含多项关键创新：多级Oobleck块实现层级下采样，捕获从局部到全局的时序依赖；非参数捷径分支为激进下采样提供梯度直通路，大幅提升收敛稳定性；对抗式多目标训练融合STFT损失、梅尔损失、L1损失与判别器对抗损失，确保重建波形既保持精确时频结构，又具备自然听感。

能不能让 AI 直接学会声音本身的规律，跳过中间环节？

“技术观察”

推理优化：训练-推理匹配与自适应投影引导

在文本编码方面，LongCat-AudioDiT采用支持107种语言的UMT5。一个关键发现是：仅使用最后一层隐藏状态无法生成可懂语音，因高层语义抽象丢失了词法、音素线索。团队创新性地将原始词嵌入（第一层）与最后一层隐藏状态相加，经LayerNorm平衡后送入后续模块，大幅提升了语音可懂度。DiT骨干网络则集成了全局自适应层归一化、QK-Norm与RoPE稳定注意力训练等多项结构优化。

模型首次发现并解决了流匹配TTS中长期存在的训练-推理不匹配问题。训练时仅在掩码区域计算损失，提示区域不参与优化；推理时提示区域却自由演化，导致音色漂移。针对这一问题，团队提出双重约束机制：强制重置提示区域隐变量为理论真值，并在计算无条件速度场时移除提示区域输入。此外，自适应投影引导（APG）取代传统无分类器引导（CFG），将引导信号分解为平行与正交分量，保留有益部分、抑制劣化部分，在提升自然度的同时避免音质损失。

实验发现一个有趣现象：VAE重建质量越好并不等同于语音生成效果越好。单纯追求高重建分数会导致潜空间维度膨胀，使下游扩散模型难以学习。经过系统性对比不同配置，最终确定64维潜在维度+11.7Hz帧率为最优配置，平衡了重建保真度与生成质量。

如有侵权，请联系删除。

TTS 语音合成音色克隆扩散模型零样本学习积墨AI AI智能体 AI智能体平台私有化AI智能体平台企业级AI智能体

Share This Post

突破零样本TTS音色克隆上限：LongCat-AudioDiT 的声音克隆艺术

Wav-VAE：高效波形压缩与重建

文本编码与条件流匹配

推理优化：训练-推理匹配与自适应投影引导

Popular Articles

企业级AI智能体如何突破效率孤岛，实现价值共振？

阿里通义Qwen模组：一周三次开源造势

积墨AI 7月更新日志

Related Articles

GEO智领增长，AI Agent重构全域引擎——AI创新营销工作坊圆满举办

《AI智能体（Agent）赋能制造管理提效》

Figure AI 实现每90分钟下线一台人形机器人

GEO智领增长，AI Agent重构全域引擎——AI创新营销工作坊圆满举办

线上】AI基础设施技术测试周

影目科技 印传学：AI+AR智能眼镜 从破圈到发展趋势预判

【行业动态】Figure AI 实现每90分钟下线一台人形机器人

【Gartner报告精选】预测2026；重要战略技术趋势；中国AI算力管理平台；中国市场指南

LightCounting：AI如何重塑光学行业

运营商向Token价值经营转型，持续看好AI产业投资机会

Q1全球VC 3000亿美元AI占八成创纪录；Sarvam AI 3亿美元成印度最大AI融资；特朗普对药品加征100%关税

Q1全球VC 3000亿美元AI占八成创纪录；Sarvam AI 3亿美元成印度最大AI融资

从OpenClaw看透AI Agent产业链

【第66期】医械+AI行业动态●皕晟周报速递（2026.3.27-2026.4.3）

AI-GEO+OPC双赛道红利，4月11日深圳开启

月度路演 2026年4月 “AI x 先进制造”主题，项目&观众报名开启

解锁AI营销新范式，共赴2026首届AI+营销数字转型峰会

小红书、京东、蚂蚁、平安等7位专家复盘AI落地实战，2026奇点智能技术大会「AI+行业落地实践」专题揭晓

【4.17-4.20/成都】智能体（AI Agent）赋能教学创新：理论、工具与智慧课程建设实践研讨班

中国AI，最新趋势来了！

4亿美元收购，万亿独角兽杀入AI制药；瑞盛生物完成收购常州天宁龙洋金铂利口腔门诊部51%股权

Helidon 引入 Agent 能力，Java 框架开始内建 AI 编排

【中泰传媒】康雅雯：AI技术迭代与商业化加速，国产大模型全球化竞争力凸显

英伟达发布《2026年医疗健康与生命科学领域AI应用现状报告》

从豆包AI手机到学而思'小精龙'：AI Agent正在拆开教育的'黑箱'

AI算力'命脉级'硬件，OCS行业爆发前夜，5家A股公司抢先布局

三天实战手把手 AI智能体实操特训

围观巅峰对决！首届“AI智能体+”大赛决赛，邀你共同见证！

Agentic AI Summit深圳大会启动，别只谈Agent理想，来深圳解决Agent落地后的'脏活累活'

政策落地：AI+电商10家核心概念股盘点

从豆包AI手机到学而思“小精龙”：AI Agent正在拆开教育的“黑箱”

全球首个射频大模型 RF‑GPT 发布！AI 终于看懂无线信号，6G 认知革命来了

探索具身智能前沿：信息与智能工程学院专业教师为学生深度解读Agent AI

388万元，AI智能体大单：火山引擎中标

“2026 FORCE LINK AI 创新巡展・武汉站”成功举办！

刷爆全网！2026最火科技：AI Agent不再是概念，人人都能拥有专属'数字员工'

从聊天到行动：2026年AI Agent如何重塑人机协作

41岁程序员靠AI年入4亿美元：普通人如何抓住这波AI红利？

【投融资】2亿视频、2840万美元收入，AI音视频应用Captions更名Mirage，GeneralCatalyst注资7500万美元

从聊天到行动：2026年AI Agent如何重塑人机协作

普华永道：金融机构AI投资回报已达10%-15%，大规模推广AI仍有困难

刷爆全网！2026最火科技：AI Agent不再是概念，人人都能拥有专属'数字员工'

深圳4月AI智能体培训开启：手把手教学！从0-1构建你的第一个Agent，用AI工具变现！

“AI+制造”的范式革命

探索具身智能前沿：信息与智能工程学院专业教师为学生深度解读Agent AI

一夜变天，Anthropic正式封杀OpenClaw！全球开发者24小时血崩

灵伴科技CEO祝铭明：AI 眼镜重构产业生态 余江应以认知更新拥抱智能未来

57k Star霸榜GitHub！字节这款超级智能体，凭何让全球AI圈真香？

灵伴科技CEO祝铭明：AI 眼镜重构产业生态 余江应以认知更新拥抱智能未来

博联率先接入 QClaw，以微信开启全屋智能 AI Agent 新时代

博联率先接入 QClaw，以微信开启全屋智能 AI Agent 新时代

AI手术机器人企业磅策医疗完成亿元B轮融资，构筑AI消费医疗新生态

北京大学《OpenClaw001：龙虾使用入门》开启个人 AI Agent 平民化时代

甲子光年：AI原生组织——OpenClaw推动组织形态重塑 2026

南京分院政企数智项目组 AI 系列研讨（四）AI Agent 技术体系深度解析

智能体全面开花，产业链做好落地准备了吗？AI Agent专场沙龙全链路洞察清智资本、华为、MiniMax……

多模态开放模型、AI 驱动内核优化与 Agent 原生支付（2026.04.03）

主权 AI 基建、Agent 基础设施与边缘优先（2026.04.02）

共拓百亿级金融通用智能体市场！阿里云联合百家伙伴吹响冲锋号

字节跳动披露豆包大模型日均 Token 突破 120 万亿/OpenAI 二级市场 6 亿美元股份无人接盘

【企业动态】深擎科技亮相阿里云金融 AI 联盟大会，以证券垂类 AI 能力共拓百亿智能体市场

NexusGen完成新一轮数千万级别融资 ，让AI回归个人掌控

字节跳动披露豆包大模型日均 Token 突破 120 万亿/OpenAI 二级市场 6 亿美元股份无人接盘

合合信息亮相2026金融AI联盟大会，携手阿里云共同启动'超级智能体计划'

智能体全面开花，产业链做好落地准备了吗？AI Agent专场沙龙全链路洞察清智资本、华为、MiniMax……

3月软件大厂激战AI智能体，转型阵痛与高增长并存

【报告】OpenClaw专题二：OpenClaw 深度调研报告-从对话到执行的AI智能体革命（附PDF下载）

【企业动态】深擎科技亮相阿里云金融 AI 联盟大会，以证券垂类 AI 能力共拓百亿智能体市场

他用2万美元和十几个AI工具，做出一家年入18亿美元的公司

171 万、北京地铁《基于 AI 大模型的网络安全态势感知智能体》大单

企业级AI下半场没有捷径：联想给出破局之道

影目科技印传学：AI+AR智能眼镜从破圈到发展趋势预判

灵伴科技CEO祝铭明：AI 眼镜重构产业生态余江应以认知更新拥抱智能未来

灵伴科技CEO祝铭明：AI 眼镜重构产业生态余江应以认知更新拥抱智能未来

NexusGen完成新一轮数千万级别融资，让AI回归个人掌控

AI Agent 落地实务全拆解解锁商科智能新玩法

五方六力赋能京苏双向奔赴