Step 3.7 Flash:为 Agent 而生的高频引擎

2026年6月2日

51

553

Step 3.7 Flash:为 Agent 而生的高频引擎

随着大模型技术从单纯的能力竞赛转向场景化落地推理效率,一个显著的趋势正在浮现:Flash类模型正在从旗舰模型的轻量替代品,进化为Agent工作流中的高频发动机。阶跃星辰最新发布的Step 3.7 Flash,正是这一转型的典型代表——它不仅追求更快的推理速度,更将优化重心放在了Agent场景的核心诉求上:速度、成本与稳定性。

概述

Step 3.7 Flash的核心定位是一款面向生产级Agent的高效率模型,主要覆盖Agent、Coding、Search与多模态工作流等高频场景。技术架构上延续了196B总参数、约11B激活参数的MoE设计,最高生成速度可达400 TPS,并重点强化了工具调用稳定性、智能体任务规划与代码生成能力。

速度即效率:从毫秒到生产力的跨越

在实际Agent工作流中,速度的意义被彻底放大。一个生产级任务往往需要经历规划、搜索、工具调用、代码生成、多模态理解、结果验证等多个环节。模型在某个节点慢一秒,整条链路可能被放大到数分钟;Token成本高一点,高频调用下的总费用便会失控;出错了,Agent就需要返工重来。 以一个典型的Coding Agent场景为例,从零构建一个完整的应用需要模型进行规划、文件操作、代码生成、测试验证等十余轮交互。Step 3.7 Flash凭借极快的推理速度和稳定的工具调用表现,能够在保证输出质量的同时大幅缩短任务完成时间。对比高端模型数小时的资源消耗,Step 3.7 Flash可以显著降低使用成本,真正实现"Token自由"。

在Agent时代,模型竞争不会只看峰值的智能,还会关注每一次循环里的速度、成本、稳定性和可控性。能进入Agent工作流的模型,才会真正进入生产力。

“技术观察”
🦞

JimoClaw — 桌面 AI Agent 工作台

让 AI 处理本地资料、操控浏览器,最终交付可直接使用的文档、表格与 PPT,而不只是一段回答。

下载桌面版

原生多模态:简化Agent的感知链路

原生多模态是Step 3.7 Flash的另一核心能力。与需要额外视觉MCP或视觉模型的方案不同,Step 3.7 Flash原生支持图像与视频理解,开发者可以直接将截图、文档、视频、网页等非结构化内容投入推理过程。 这对于生产级Agent至关重要。现实任务中的信息很少整齐地躺在纯文本里——它可能是一张UI截图、一段操作录屏、一份带图表的报告。原生多模态将视觉理解直接融入推理链路,减少了中间层的编排开销,从而降低误差传递和维护成本。Agent可以将多媒体素材与代码、文档放在同一条推理路径中统一处理。

搜索增强:让Agent学会主动查证

🛡️

积墨 AI 安全隐患巡检系统

任务一键下达 · 隐患 AI 识别 · 整改全程留痕 · 报告一键生成。让安全巡检真正看得见、管得住、能闭环。

了解方案

如有侵权,请联系删除。

Related Articles

联系我们 免费试用
小墨 AI