By 张伟
2024年8月22日
22
310
顶尖Phi 3.5模型系列:微软小语言模型的全新升级
微软正式发布了Phi小语言模型系列的最新版本——Phi 3.5,一口气连发三款模型。虽说这三款模型规模较小,但在许多第三方基准测试中表现卓越,甚至在某些情况下超越了其他领先的大模型,包括谷歌的Gemini 1.5 Flash、Meta的Llama 3.1,甚至在一些竞技场上击败了OpenAI的GPT-4。
小而美路线
这次发布的三款Phi 3.5模型延续了小而美的路线,适用于多种AI解决方案和AI定制开发需求,特别是在大型语言模型开发和ChatGPT开发中展示了强大的性能和多样的应用场景。
轻量级模型:Phi-3.5-mini-Instruct
Phi-3.5-mini-Instruct是微软Phi 3.5系列中的轻量级AI模型,基于Phi-3的数据集构建,拥有38亿个参数,并支持128k token上下文长度。这款模型在多语言和多轮对话任务中表现出色,支持多达23种语言,包括阿拉伯语、中文、英语、芬兰语、法语、德语等,这使其在教育行业AI解决方案和教培行业AI应用中具有广泛的应用前景。由于支持128k上下文长度,Phi-3.5-mini-Instruct能够执行多种长上下文任务,如长文档/会议摘要、长文档QA以及长文档信息检索,非常适合用于AI企业解决方案和AI定制开发项目。
hi-3.5-mini在多语言和多轮对话任务中表现出了优秀的性能。
“新智元”混合专家架构
Phi-3.5-MoE-instruct是微软Phi模型中的首个MoE(Mixture of Experts)模型,将多种不同类型的模型组合成一个模型,使其能够专门从事不同的任务。该模型采用混合专家架构,在23天内使用512个H100-80G GPU对4.9万亿个token进行了训练。模型拥有420亿个参数,并支持128k token上下文长度,专注处理高质量和推理密集的数据。Phi-3.5-MoE在大规模多任务语言理解(MMLU)测试中表现卓越,击败了GPT-4o mini,涉及STEM、人文科学、社会科学等不同专业领域,这为教育行业售前咨询AI和税务行业知识问答AI提供了强大的技术支持。
多帧图像理解
Phi-3.5-vision则主要用于多帧图像理解和推理,包括详细的图像比较、多图像摘要和视频摘要。这些能力在办公场景中有广泛的应用。经过测试,Phi-3.5-vision在大多数图像基准测试中的性能都有所提升,例如MMMU性能从40.2提升到43.0,MMBench性能从80.5提升到81.9,文档理解基准TextVQA从70.9提升到72.0。这使得Phi-3.5-vision在AI系统开发和AIGC软件服务中成为一个不可或缺的工具。
如有侵权,请联系删除。
Related Articles
-
Sun Apr 26 20262026年4月26日AI日报:英伟达适配DeepSeek-V4、OpenAI推出工作流智能体、谷歌豪掷400亿美元投资Anthropic
本篇日报汇总了4月26日值得关注的多条行业大新闻,涵盖模型适配、企业级智能体新产品与大型资本动作,反映出技术、产品与资金三圈正在加速重构AI生态。
-
Sun Apr 26 20263.1 亿、AI 大单:联影、华为、宏杉、金仓、H3C、华鲲等是赢家
复旦大学附属中山医院公布了价值3.13705亿元的人工智能全栈能力开发服务平台招标结果,由上海仪电鑫森科技发展有限公司联合中国电信上海分公司以3.1296亿元中标。该平台将构建算力支撑、数据治理、模型
-
Sun Apr 26 2026索赔 1 亿!全国首例 AI 智能体'流量劫持'开庭
2026年4月23日,杭州市中级人民法院公开审理了全国首例关于AI智能体引发的流量劫持不正当竞争案件。该案由一家科技公司提起,指控被告利用输入法内置功能,将原本指向原告K智能体的用户流量劫持至被告的W
-
Sat Apr 25 2026Inkog:《2026年AI智能体安全状况报告:基于500余项开源AI智能体项目的扫描发现》
Inkog 发布的报告对开源 AI 智能体生态进行了大规模自动化扫描,量化揭示了当前社区在安全实践方面的系统性短板,并提出若干紧急修复建议与长期治理方向。
-
Sat Apr 25 2026数智重构矿山新生态:华夏天信以AI Agent与SDC等技术领跑第24届太原煤炭展
在第24届太原国际煤炭工业技术与装备展览会上,华夏天信展示了其面向矿山场景的AI Agent、软件定义控制(SDC)和REDMOS智能管控平台,强调通过全栈式方案实现场景化落地。
-
Sat Apr 25 2026Inkog:《2026年AI智能体安全状况报告:基于500余项开源AI智能体项目的扫描发现》
Inkog 发布了一份针对开源 AI 智能体生态的系统性安全扫描报告,样本覆盖 500 多个仓库,采用自动化检测结合人工复核的方式,揭示了智能体相关代码与依赖中的普遍风险。
