By 积墨AI
2025年12月25日
43
612
推理成本打穿1元/百万token,浪潮信息推动Agent规模化的“最后一公里”
浪潮信息近日推出名为元脑HC1000的超扩展AI服务器,宣称将大模型推理成本首次降至1元/每百万token。该产品以全对称DirectCom极速架构为核心,旨在通过体系级的设计优化打破当前智能体规模化落地的成本瓶颈。
元脑HC1000与DirectCom架构
元脑HC1000采用无损超扩展设计,每计算模组配置16颗AIPU,使用直达通信实现超低延迟,并以计算与通信1:1均衡配比保障全局无阻塞通信。该架构支持按需配置计算实例,最大化资源利用率,从而显著提升推理吞吐与性价比。
成本下降的行业意义
推理成本下降至1元/百万token被视为打通智能体‘最后一公里’的关键一步。随着智能体对超长上下文、多步规划等复杂任务的需求激增,token消耗呈指数级增长,降低单token成本对商业化与普惠化具有决定性作用。
AI要真正成为如同水电煤般的基础资源,token成本必须实现数量级下降。
“小墨”技术细节与性能提升
DirectCom架构通过自适应路由和智能拥塞控制,实现数据包级动态负载均衡,降低KV Cache传输对Prefill和Decode实例的影响;同时,系统拓扑与通信策略可提升推理性能与单卡MFU表现,帮助大规模应用场景实现更高效能与更低成本。
未来挑战与展望
尽管1元/百万token是一项阶段性突破,浪潮信息高层也指出这远不足以面对未来token消耗的爆发式增长。行业需持续在架构、芯片与调度等多层面创新,才能将AI推向像水电煤一样的基础设施地位,为智能体生态的长期可持续发展奠定基础。
如有侵权,请联系删除。
Related Articles
-
Tue Apr 14 20264月17日深圳见!观测云携手百胜软件,解锁 AI Agent 驱动的可观测性新范式
观测云与百胜软件将在深圳联合举办主题为“AI Agent驱动的可观测性新范式”的技术活动,旨在探讨如何借助智能体将海量技术指标转化为可执行的业务洞察。
-
Tue Apr 14 2026【热点速递汇编】EdgeRunner AI公司为美国太空军开发专用 AI智能体
EdgeRunner AI赢得美国太空军合同,将为其提供专用的端侧AI智能体,旨在在通信受限或中断环境中仍能为人员提供可靠的智能支持。
-
Tue Apr 14 2026【TV最前线】布局人工智能领域,中国广电四川公司发布四款AI产品
中国广电四川公司在2026年推出四款AI产品,覆盖大屏、康养、竞赛与运维等场景,强调私有化与本地化部署保障用户数据不出域。
-
Tue Apr 14 2026斯坦福HAI最新报告出炉:中国模型追平美国,95%企业AI投资零回报
斯坦福大学人类中心人工智能研究所(HAI)发布了2026年AI指数报告,报告通过多维指标评估全球AI发展态势,指出在模型性能、学术产出和产业应用等方面,中国取得显著进展,与美国在若干任务上差距明显缩小
-
Mon Apr 13 2026Anthropic 推出 Claude for Word 公测版,原生嵌入微软 Office 编辑流程/MiniMax 开源 229B 参数 M2.7 模型
Anthropic 发布了 Claude for Word 公测版,作为原生侧边栏插件它可以嵌入 Microsoft Word 编辑流程,为用户提供上下文感知的编辑建议与文档处理能力。
-
Mon Apr 13 2026硬件 × 算法 × 智能体:AI 迈向 2026–2030 的关键突破
在NVIDIA GTC 2026的主论坛上,多位顶尖科学家围绕硬件创新、系统规模化与算法演化展开深度讨论,勾勒出2026-2030年AI发展的技术蓝图。
