2026年4月3日

685

美团发布原生多模态LongCat-Next：当视觉和语音成为AI的母语

物理世界的信息由图像、声音、文字交织而成。当前大模型本质上仍是以语言为中心的建模系统，语言作为人类智慧符号化表述，在“压缩即智能”的范式下展现出强大能力。然而，通往真正的物理世界智能，语言或许并非边界。视觉、语音与文本等多模态信号，实际上是对现实物理对象的不同侧面投影。这引出一个根本问题：能否让AI像处理语言一样，用同一种方式简洁有效地处理物理世界的多种信息？如果能，那么物理世界的AI就有了统一的“母语”，Token不再局限于文本，而是成为描述一切物理信号的原生表示。

DiNA架构：统一建模的核心理念

传统多模态大模型长期受制于“语言基座+外挂视觉/语音模块“的拼凑式架构，非语言模态往往只作为辅助组件存在。这种设计带来诸多结构性问题：图像理解与生成在结构与优化上长期割裂——前者依赖对齐机制，后者依赖扩散等独立模型，多模态信息始终停留在“被投影”，而非“被内化”。

三大根本性改变

美团团队构建了DiNA（Discrete Native Autoregressive）离散原生自回归架构。其核心非常简洁：将所有模态统一为离散Token，并用同一个自回归模型进行建模。它将物理世界广泛存在的多模态信号收敛为同源的离散特征，实现了视觉、语音、文本多模态的底层建模统一。作为整个大语言模型体系的自然扩展，DiNA彻底打破了模态间的隔阂。它通过极简的下一Token预测（NTP）范式，将图像、声音和文字统一转化为同源的离散Token。在这套原生统一架构下，视觉的“看”与“画”、听觉的“听“与“说”，不再是拼接的异构模块，而是同一套预测逻辑的自然涌现。简言之：无论读文字、看图片还是听声音，对AI来说都是同一件事——预测下一个Token是什么。

我们把文字、图像、语音都变成同一种东西——离散Token。无论读文字、看图片还是听声音，对AI来说都是同一件事：预测下一个Token是什么。

“LongCat团队”

🦞

JimoClaw — 桌面 AI Agent 工作台

让 AI 处理本地资料、操控浏览器，最终交付可直接使用的文档、表格与 PPT，而不只是一段回答。

下载桌面版

dNaViT：视觉信号的离散化分词器

这一设计带来三个根本性改变： 1. 架构极简：所有模态共享同一个自回归骨干，这意味着无论输入的是文字、图像还是音频，模型都用同一套参数、同一个注意力机制、同一个损失函数。这种统一设计让模型在训练时更稳定，部署时更轻量。 2. 理解与生成对称：LongCat-Next用同一个自回归模型同时实现了视觉理解和生成，解决了长期困扰的理解生成架构和优化不一致问题。在统一Token空间中，理解与生成被统一为同一数学问题——给定图像Token预测文字Token是“理解”，给定文字Token预测图像Token是“生成”，数学形式完全一致。实验证明，统一模型的理解损失仅比纯理解模型高0.006，而生成损失比纯生成模型低0.02。理解没有损害生成，反而表现出协同潜力。 3. 模态内化：在离散原生训练范式下，不同模态被统一编码为Token，并以相同方式建模。不同模态的Token表征在表示空间中自然融合，MoE专家自发形成模态偏好分化，表明模型并非在“对齐模态”，而是在内部形成统一的多模态表征结构。

性能验证与关键发现

如果说DiNA解决的是“如何统一建模”，那么dNaViT解决的是：如何让图像本身能够被离散化为可建模的Token。 dNaViT技术相当于语言模型中的tokenizer——就像把句子拆成单词，它把一张图拆解成一系列有意义的“视觉词汇”。其核心特性包括： - 原生任意分辨率支持：不作缩放、不裁剪、不填充，每一处细节都完整保留。通过精心设计的训练策略，dNaViT实现了任意分辨率的图像编码与解码，在文档解析（OCR）、复杂图表推理等对细节敏感的任务中具备优势。 - 8层残差向量量化：细节多了怎么办？分层打包。类比于第一层打包轮廓，第二层打包颜色，第三层打包纹理……8层级联递归拟合“残差中的残差”，可实现高达28倍极致像素空间压缩。 - 解耦的双轨生成解码器：离散Token还原图像时，先由“结构像素解码器“保住布局，再由“扩散像素细化器“注入纹理细节，确保文本渲染无损清晰。

🛡️

积墨 AI 安全隐患巡检系统

任务一键下达 · 隐患 AI 识别 · 整改全程留痕 · 报告一键生成。让安全巡检真正看得见、管得住、能闭环。

了解方案

如有侵权，请联系删除。

多模态大模型原生多模态 DiNA架构视觉理解图像生成积墨AI AI智能体 AI智能体平台私有化AI智能体平台企业级AI智能体

Share This Post

🦞

JimoClaw 桌面 AI Agent 工作台

让 AI 处理本地资料 · 操控浏览器 · 交付可用文档

下载桌面版

美团发布原生多模态LongCat-Next：当视觉和语音成为AI的母语

DiNA架构：统一建模的核心理念

三大根本性改变

JimoClaw — 桌面 AI Agent 工作台

dNaViT：视觉信号的离散化分词器

性能验证与关键发现

积墨 AI 安全隐患巡检系统

Popular Articles

企业级AI智能体如何突破效率孤岛，实现价值共振？

阿里通义Qwen模组：一周三次开源造势

积墨AI 7月更新日志

Related Articles

库克坦言涨价无可避免，行业真相：苹果已错失 AI 先发优势

2026-AI科学家-Nature：两天完成十年研究，加速科学发现新时代

阿里腾讯等大厂Agent同台交锋！年度AI智能体大会7月开幕

全国首家政医企共建AI医院成立；25项目招标超1.7亿；证监会支持AI大模型企业上市；多个医疗智能体发布

AI跨境电商交流会，探索'一人出海'新模式

PPT 从跑分到护栏：AI Agent 可观测和质量保障体系

Hermes Agent v0.17.0重磅发布：AI智能体的触达时代来了

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

当AI贯穿消费到产业，618彻底变了

Fluss+Flink+AI Agent：淘宝交易实时风控智能体探索！

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

公开课来了！第19讲：学习搭建生产排产与LCEL架构 AI 智能体

AI PCB生态专业展超75%展位售罄，首批展商选位圆满完成！10月引领全球产业风向

AI来了，中国动画电影反而更需要人了

AI时代的智能体先锋论坛

'梁文锋'们，上市有门了

AI Agent倒逼舱驾一体芯片成为刚需？

AI资本开支2.0

美团发布原生多模态LongCat-Next：当视觉和语音成为AI的母语

DiNA架构：统一建模的核心理念

三大根本性改变

JimoClaw — 桌面 AI Agent 工作台

dNaViT：视觉信号的离散化分词器

性能验证与关键发现

积墨 AI 安全隐患巡检系统

Popular Articles

企业级AI智能体如何突破效率孤岛，实现价值共振？

阿里通义Qwen模组：一周三次开源造势

积墨AI 7月更新日志

Related Articles

库克坦言涨价无可避免，行业真相：苹果已错失 AI 先发优势

2026-AI科学家-Nature：两天完成十年研究，加速科学发现新时代

阿里腾讯等大厂Agent同台交锋！年度AI智能体大会7月开幕

全国首家政医企共建AI医院成立；25项目招标超1.7亿；证监会支持AI大模型企业上市；多个医疗智能体发布

AI跨境电商交流会，探索'一人出海'新模式

PPT 从跑分到护栏：AI Agent 可观测和质量保障体系

Hermes Agent v0.17.0重磅发布：AI智能体的触达时代来了

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

当AI贯穿消费到产业，618彻底变了

Fluss+Flink+AI Agent：淘宝交易实时风控智能体探索！

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

公开课来了！第19讲：学习搭建生产排产与LCEL架构 AI 智能体

AI PCB生态专业展 超75%展位售罄，首批展商选位圆满完成 ！10月引领全球产业风向

AI来了，中国动画电影反而更需要人了

AI时代的智能体先锋论坛

'梁文锋'们，上市有门了

AI Agent倒逼舱驾一体芯片成为刚需？

AI资本开支2.0

AI PCB生态专业展超75%展位售罄，首批展商选位圆满完成！10月引领全球产业风向