微软发布 Phi-4 多模态与迷你模型，语音视觉文本处理再升级

2025-02-27 09:38 · 来源： AIbase基地

近日，微软进一步扩展了 Phi-4家族，推出了两款新模型:Phi-4多模态（Phi-4-multimodal）和 Phi-4迷你(Phi-4-mini)，这两款模型的亮相，无疑将为各类 AI 应用提供更加强大的处理能力。

Phi-4多模态模型是微软首款集成语音、视觉和文本处理的统一架构模型，拥有5600万参数。这款模型在多项基准测试中表现优异，超越了目前市场上的许多竞争对手，例如谷歌的 Gemini2.0系列。在自动语音识别（ASR）和语音翻译(ST)任务中，Phi-4多模态模型表现尤为突出，成功击败了如 WhisperV3和 SeamlessM4T-v2-Large 等专业语音模型，词错误率更是以6.14% 的成绩位居 Hugging Face OpenASR 排行榜首位。

在视觉处理方面，Phi-4多模态模型同样表现出色。其在数学和科学推理方面的能力令人印象深刻，能够有效理解文档、图表和执行光学字符识别（OCR）。与 Gemini-2-Flash-lite-preview 和 Claude-3.5-Sonnet 等流行模型相比，该模型的表现不相上下，甚至更胜一筹。

另一款新发布的 Phi-4迷你模型则专注于文本处理任务，参数量为3800万。在文本推理、数学计算、编程和指令遵循等方面，Phi-4迷你表现卓越，超越了多款流行的大型语言模型。为了确保新模型的安全性和可靠性，微软邀请了内部与外部的安全专家进行全面测试，并按照微软人工智能红队（AIRT）的标准进行优化。

这两款新模型均可通过 ONNX Runtime 部署到不同设备上，适用于多种低成本和低延迟的应用场景。它们已在 Azure AI Foundry、Hugging Face 和 NVIDIA API 目录中上线，供开发者使用。毫无疑问，Phi-4系列的新模型标志着微软在高效 AI 技术上的重大进步，为未来的人工智能应用打开了新的可能性。

相关推荐

寒武纪智能芯片赋能多模态大模型应用

大模型快速发展推动人工智能技术迈向新阶段，从解决特定任务的弱人工智能向处理通用复杂任务的强人工智能演进。IDC报告显示，2024年中国大模型开发平台市场规模达16.9亿元，人工智能算力市场约190亿美元，预计2025年将达259亿美元。寒武纪等企业专注AI芯片研发，推出多款处理器及加速卡产品，支持大模型训练推理及多模态任务，并与产业链合作共同推进人工智能产业发展。

大模型人工智能强人工智能
微软发布AI截图工具，截图一键转PPT

微软电脑管家推出全新“智能圈选”功能，通过AI技术实现截图内容的智能识别与重构。用户只需圈选截图区域，即可一键完成文字提取、多语言翻译及PPT转换等操作，大幅提升办公和学习效率。该功能支持100多种语言，保留原始格式，并能智能修复遮挡内容，彻底改变了传统截图处理方式。

微软电脑管家智能圈选截图处理
OpenAI发布语音模型GPT-realtim：具备情感感知能力多语言无缝切换

OpenAI正式发布语音模型GPT-realtime。据介绍，GPT-realtime是一款专注于语音AI Agent的多模态模型，能够生成高度自然流畅的语音，精准还原人类语调、情感和语速的丰富变化。该模型支持图像理解，并可结合语音或文本对话使用，非常适合应用于客服、教育、金融、医疗等领域，用于构建高质量的语音智能体。官方表示，新模型在复杂指令遵循、工具精确调用以及生成更自然、�

语音模型 GPT-realtime 多模态模型
iPhone 17系列今晚发布：苹果发布会新品揭晓

iPhone17Pro/Max采用全新三摄布局，三颗镜头均升级至4800万像素，新增8K视频录制及前后摄像头同录功能。Apple Watch产品线同步迭代，Ultra3支持5G与卫星通信，屏幕亮度显著提升;Series11搭载S11芯片，或新增睡眠评分功能;SE3则通过增大屏幕尺寸补足功能短板。配件生态方面，AirPods Pro3将引入心率监测
荐AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃发布语音大模型Step-Audio 2 mini

AI日报栏目每日更新AI领域热点内容，聚焦开发者需求。本期重点包括：阶跃星辰发布端到端语音大模型Step-Audio2 mini，在多项基准测试中表现优异；9月1日起AI生成内容需强制标识；美团推出开源大模型LongCat；上海AI实验室发布多模态大模型InternVL3.5；腾讯ARC团队推出音频生成模型AudioStory；OpenAI发布实时语音模型GPT-realtime；Meta与UCSD合作推出DeepConf技术；xAI代码库遭窃事件；阿里巴巴Qwen团队发布GUI自动化框架；微软推出Copilot Labs实验中心；小红书自动化工具xiaohongshu-mcp上线。

AI 语音大模型 Step-Audio2mini
苹果发布会前瞻：最大看点iPhone Air iPhone17或成国内首款无卡槽手机

苹果公司即将于北京时间2025年9月10日发布的iPhone17系列，或将创造中国手机市场新纪录——成为首款取消物理SIM卡槽的智能手机。据产业链消息，该系列中的iPhone17Air机型将采用极致轻薄设计，机身厚度仅约5.5毫米，较前代缩减25%，为此彻底取消传统卡槽，全面转向eSIM技术。

iPhone17 eSIM技术手机市场
荐AI日报：海螺AI首尾帧功能上线；元石科技发布问小白5；OpenAI发布全新语音模型GPT-Realtime

AI日报栏目每日提供人工智能领域热点内容，聚焦开发者，帮助洞悉技术趋势、了解创新AI产品应用。最新动态包括：MiniMax海螺AI首尾帧功能上线；元石科技发布问小白5挑战GPT-5；OpenAI推出语音模型GPT-Realtime；谷歌Gemini AI优化表格处理；腾讯黑科技实现AI配音；百度计划培养千万AI人才；MathGPT.ai反作弊功能推广；苹果Xcode集成Claude Sonnet4；微软发布自研AI模型MAI系列；xAI推出高效编码模型Grok Code Fast1；SuperCLUE多模态评测Gemini-2.5-Pro居首；9月1日起AI内容标识新规实施，违规将承担法律风险。

AI 人工智能技术趋势
华为小米发布会前后夹击iPhone 17：压力给到苹果

小米集团总裁卢伟冰确认，小米16系列发布会提档，相关话题华为小米发布会前后夹击iPhone”引发热议。有网友表示，华为苹果小米三家大厂组成2025秋季旗舰三部曲”，华为小米前后夹击苹果的盛况属实罕见。据悉，华为在9月4日推出新一代三折叠屏手机Mate XTs非凡大师，售价17999元起。随后在北京时间9月10日凌晨，苹果将举办新品发布会，正式推出年度旗舰iPhone 17系列。

小米16系列华为Mate XTs
荐AI日报：生数科技上线Vidu Q1参考生图；字节跳动发布Seedream4.0；百度文心大模型X1.1发布

本期AI日报聚焦多项AI技术突破与应用进展。生数科技推出Vidu Q1参考生图功能，支持多图输入与一致性生成；字节跳动发布Seedream4.0多模态图像创作模型，推理速度提升10倍；腾讯推出国内首款全形态AI编程工具CodeBuddy，编码效率提升40%；百度文心大模型X1.1升级深度学习能力；OpenAI支持AI动画长片《Critterz》制作；上海AI实验室发布XTuner V1训练引擎提升效率20%；谷歌AI搜索新增5种语言支持；我国发布30项人工智能和15项人形机器人国家标准，推动行业规范化发展。

AI 多模态创作生数科技
荐王宁掏出迷你版LABUBU

“这周就要发布Mini版LABUBU，以前可能大家是挂在包上，可能从下周开始，大家甚至可以挂在手机上，它的使用场景会更多，相信它会是一个超级受欢迎的爆款。” 8月20日，在泡泡玛特2025年中期业绩发布会上，泡泡玛特董事长兼CEO王宁化身“带货博主”，从胸前西装口袋中拿出了一个Mini版LABUBU介绍道。这款即将登场的 Mini 版 LABUBU 仅有掌心大小，延续了LABUBU标志性的搪胶毛�

泡泡玛特 LABUBU Mini版LABUBU

今日大家都在搜的词：

热文

3 天
7天

微软发布 Phi-4 多模态与迷你模型，语音视觉文本处理再升级

寒武纪智能芯片赋能多模态大模型应用

微软发布AI截图工具，截图一键转PPT

OpenAI发布语音模型GPT-realtim：具备情感感知能力多语言无缝切换

iPhone 17系列今晚发布：苹果发布会新品揭晓

荐AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃发布语音大模型Step-Audio 2 mini

苹果发布会前瞻：最大看点iPhone Air iPhone17或成国内首款无卡槽手机

荐AI日报：海螺AI首尾帧功能上线；元石科技发布问小白5；OpenAI发布全新语音模型GPT-Realtime

华为小米发布会前后夹击iPhone 17：压力给到苹果

荐AI日报：生数科技上线Vidu Q1参考生图；字节跳动发布Seedream4.0；百度文心大模型X1.1发布

荐王宁掏出迷你版LABUBU

今日大家都在搜的词：

热文

苹果发布会前瞻：最大看点iPhone Air iPhone17或成国内首款无卡

为什么微信上那么多人住在安道尔上热搜：这些因素导致

iPhone 17系列今晚发布：苹果发布会新品揭晓

AI日报：国产版Nano Banana？即梦图片4.0发布；阿里巴巴发布 Q

魅族22官宣9月15日发布：外观、配置公布

预售16.98万起！尚界H5 小订量破 8 万

小米王腾因泄密被辞退曾单独签署保密协议

小米自带线充电宝20000 67W开售：售价179元

高通骁龙峰会定档9月24日：将发布骁龙8 Elite Gen5

王腾更新脉脉小米工作经历配流汗表情

苹果发布会前瞻：最大看点iPhone Air iPhone17或成国内首款无卡

为什么微信上那么多人住在安道尔上热搜：这些因素导致

iPhone 17系列今晚发布：苹果发布会新品揭晓

AI日报：国产版Nano Banana？即梦图片4.0发布；阿里巴巴发布 Q

AI日报：拍我AI接入Nano Banana；腾讯智影暂停服务；京东自研京

雷军第90次健身房打卡距离健身目标仅剩10次

魅族22官宣9月15日发布：外观、配置公布

全新问界M7开售1小时订单破10万售价28.8万元起

预售16.98万起！尚界H5 小订量破 8 万

小米王腾因泄密被辞退曾单独签署保密协议

站长商机