By 张伟
2024年10月14日
24
419
苹果多模态模型大升级:文本密集、多图理解
苹果多模态模型MM1.5的推出,标志着在AI定制开发与ChatGPT开发上的又一次突破。多模态大语言模型在当前大势下表现出色,苹果作为科技先锋,自然不甘落后。MM1.5基于前代MM1模型,采用数据为中心的训练方法,显著改善其在文本密集型图像理解与多图像推理上的表现,符合当下AI解决方案的需求。
横跨密集模型和专家混合模型
苹果的新款MM1.5系列,参数范围从1B到30B,横跨密集模型和专家混合模型(MoE),成为大型语言模型开发的热点。其光学字符识别(OCR)能力的提升,使其能够处理高达4M像素分辨率的图像并有效理解富含文本的视觉内容。通过监督微调(SFT)对高质量多图像数据的优化,模型在多图像推理上的表现尤为突出,为教育行业AI解决方案和税务AI咨询提供了坚实基础。
通用性和高效性
研究表明,小尺寸模型在多样的下游任务中,凭借通用性和高效性,展现出强大的潜力。MM1.5在30B参数内表现优异,符合缩放定律。这种性能的升华,无疑将为杭州AI企业服务及浙江AI解决方案带来新的机遇。MM1.5的功能扩展到视频理解和移动用户界面(UI)定制,为杭州Langchain AI开发中的多模态应用注入新的活力。
过去的一年中,闭源阵营的GPT-4o、GPT-4V、Gemini-1.5和Claude-3.5等模型引领了时代。
“新智元”实验验证
MM1.5保持了与MM1一致的架构,并在高分辨率连续预训练和OCR数据使用上进行了优化。这些提升,尤其是高质量合成图像字幕的开发,为使用Langchain框架的AI案例创造了条件。研究团队通过广泛的消融实验,验证了动态高分辨率在图像编码过程中的效果,确保每一步设计都能助力AI系统开发的前沿探索。
结语
苹果的MM1.5模型不仅改善了文本呈现模式,更通过混合模式确保了多功能AI模型的灵活性,以期在不断演进的市场环境中保持领先地位。有利于AI应用定制服务和AI系统开发技术的发展。
如有侵权,请联系删除。
Related Articles
-
Wed May 13 2026DAU已死?李彦宏抛出“DAA”,重塑AI时代价值标尺
在百度 Create 2026 大会上,李彦宏提出 DAA(Daily Active Agents)作为衡量 AI 时代价值的新指标,强调应关注每天有多少智能体在替人完成任务闭环,而不是单纯统计用户打
-
Wed May 13 2026关于召开“科创赋能·AI提质”河北省建筑行业高质量发展交流会的通知
河北省将举行“科创赋能·AI提质”建筑行业高质量发展交流会,聚焦 AI 智能体在工程管理、智能建造与成本管控等方面的应用与实践,旨在推动行业数智化转型。
-
Wed May 13 2026AI Agent:从工具到智能体,打开AI应用新局面
文章系统回顾了AI Agent从对话工具向能够自主执行任务、闭环决策的智能体演进,指出这是大模型商业化的重要落地形式。
-
Tue May 12 2026大摩研报:5970亿!2026中国AI资本开支井喷,占比飙升至12.1%
摩根士丹利发布最新研究报告指出,2026年中国AI资本开支预计达到5970亿元,标志着行业从概念验证进入商业化规模部署阶段。
-
Tue May 12 2026国家队出手!AI智能体要发「身份证」,首个互联国标将落地
2026年5月,国家网信办等部门发布实施意见并推进智能体互联系列国家标准的报批,标志着智能体技术进入从概念到规范化落地的关键阶段。官方强调在多个典型场景推动应用,并通过标准化保障互联安全与可控。
-
Tue May 12 2026高通CEO:2026为“AI Agent元年”,智能眼镜或将取代手机核心地位
高通 CEO 在采访中将 2026 年称为“AI Agent 元年”,指出人工智能交互模式将迎来根本性变化,设备与网络协同的重要性被大幅提升,个人终端形态可能发生演变。
-
Tue May 12 2026国家队出手!AI智能体要发「身份证」,首个互联国标将落地
近日,国家网信办、发改委、工信部等联合推动《人工智能 智能体互联》国家标准(AIP系列)进入报批阶段,并提出将在19个典型场景推动智能体应用落地与规范实施。
-
Tue May 12 2026突发!陈天桥旗下 MiroMind AI 暂停中国服务
5 月 12 日,陈天桥旗下的 AI 研究公司宣布暂停其智能体服务 MiroThinker 在中国大陆、香港和澳门的运营。该服务以任务自主执行、复杂任务拆解与长链推理为核心卖点,区别于常见对话型机器人
-
Tue May 12 2026国家队出手!AI智能体要发「身份证」,首个互联国标将落地
2026年5月8日,国家网信办、国家发展改革委与工信部联合发布实施意见,提出推广智能体互联协议(AIP)等关键国家标准,推动智能体在多中心化环境中的可信互联与协作应用。
-
Tue May 12 2026整个AI行业,都在给英伟达“打工”?
文章从资本与技术投入两个维度分析英伟达在2026年前五个月对AI产业链的强势影响,指出其通过大规模投资和产品布局增强产业依赖性。
-
Tue May 12 2026大摩研报:5970亿!2026中国AI资本开支井喷,占比飙升至12.1%
摩根士丹利最新研究报告显示,2026年中国AI资本开支预计将达到5970亿元,标志着中国AI正从概念验证向商业规模化快速转变。
-
Mon May 11 2026从放射学到药物研发,调研显示 AI 正在为医疗行业带来明确的投资回报
NVIDIA 发布的 2026 年医疗健康与生命科学行业 AI 调研报告指出,医疗行业正从试验向实际应用转变,尤其在医学影像与药物研发领域出现明确的投资回报。
-
Mon May 11 2026AI Agent赋能产业:从技术架构到商业落地
5月7日的 AI Agent 全球产业生态论坛在上海召开,汇聚多国专家与企业代表,围绕智能体从技术架构到商业落地的路径展开讨论,展示了多项行业实践与挑战分析。
-
Mon May 11 2026【融资动态】AI眼镜再获投资:艾为电子战略投资Rokid
上海艾为电子与 AR/AI 眼镜服务商 Rokid 达成战略合作,艾为成为 Rokid 的战略投资股东,双方将围绕空间计算设备进行深度协同。
-
Mon May 11 2026刚刚,重磅发布!AI,大利好!
广州市人工智能产业发展办公室发布《广州市人工智能产业2026年工作要点》,提出 32 条具体举措,旨在加速将广州打造为垂类模型之都与人工智能应用示范高地。
-
Mon May 11 2026养马首超养虾!Hermes Agent超越OpenClaw,全球Token消耗第一
Hermes Agent(爱马仕智能体)在最近的 OpenRouter 全球 Token 消耗排行榜上首次超越 OpenClaw,跃居榜首,成为本期全球使用量最高的开源自主智能体框架之一。
-
Mon May 11 2026华为亮相GOSIM Paris 2026,以开源协同共建智能体AI新生态
在巴黎举办的 GOSIM Paris 2026 开源 AI 技术大会上,华为展示了其推动智能体 AI 时代的开源协同实践,强调技术开放与产业生态的协同建设。
-
Mon May 11 202680%的钱流向AI,但谁来买单?
2026 年第一季度,全球风险投资出现高度聚焦,约 80% 的资金流向 AI 公司,头部大厂与独角兽吸纳了绝大部分资本,带来行业结构性变化。
