blog details

2024年10月14日

24

419

苹果多模态模型大升级:文本密集、多图理解

苹果多模态模型MM1.5的推出,标志着在AI定制开发与ChatGPT开发上的又一次突破。多模态大语言模型在当前大势下表现出色,苹果作为科技先锋,自然不甘落后。MM1.5基于前代MM1模型,采用数据为中心的训练方法,显著改善其在文本密集型图像理解与多图像推理上的表现,符合当下AI解决方案的需求。

苹果的新款MM1.5系列,参数范围从1B到30B,横跨密集模型和专家混合模型(MoE),成为大型语言模型开发的热点。其光学字符识别(OCR)能力的提升,使其能够处理高达4M像素分辨率的图像并有效理解富含文本的视觉内容。通过监督微调(SFT)对高质量多图像数据的优化,模型在多图像推理上的表现尤为突出,为教育行业AI解决方案和税务AI咨询提供了坚实基础。

横跨密集模型和专家混合模型

研究表明,小尺寸模型在多样的下游任务中,凭借通用性和高效性,展现出强大的潜力。MM1.5在30B参数内表现优异,符合缩放定律。这种性能的升华,无疑将为杭州AI企业服务及浙江AI解决方案带来新的机遇。MM1.5的功能扩展到视频理解和移动用户界面(UI)定制,为杭州Langchain AI开发中的多模态应用注入新的活力。

过去的一年中,闭源阵营的GPT-4o、GPT-4V、Gemini-1.5和Claude-3.5等模型引领了时代。

“新智元”

通用性和高效性

MM1.5保持了与MM1一致的架构,并在高分辨率连续预训练和OCR数据使用上进行了优化。这些提升,尤其是高质量合成图像字幕的开发,为使用Langchain框架的AI案例创造了条件。研究团队通过广泛的消融实验,验证了动态高分辨率在图像编码过程中的效果,确保每一步设计都能助力AI系统开发的前沿探索。

苹果的MM1.5模型不仅改善了文本呈现模式,更通过混合模式确保了多功能AI模型的灵活性,以期在不断演进的市场环境中保持领先地位。有利于AI应用定制服务和AI系统开发技术的发展。

如有侵权,请联系删除。

Related Articles