首页 > AI头条  > 正文

微软发布 Phi-4 多模态与迷你模型,语音视觉文本处理再升级

2025-02-27 09:38 · 来源: AIbase基地

近日,微软进一步扩展了 Phi-4家族,推出了两款新模型:Phi-4多模态(Phi-4-multimodal)和 Phi-4迷你(Phi-4-mini),这两款模型的亮相,无疑将为各类 AI 应用提供更加强大的处理能力。

Phi-4多模态模型是微软首款集成语音、视觉和文本处理的统一架构模型,拥有5600万参数。这款模型在多项基准测试中表现优异,超越了目前市场上的许多竞争对手,例如谷歌的 Gemini2.0系列。在自动语音识别(ASR)和语音翻译(ST)任务中,Phi-4多模态模型表现尤为突出,成功击败了如 WhisperV3和 SeamlessM4T-v2-Large 等专业语音模型,词错误率更是以6.14% 的成绩位居 Hugging Face OpenASR 排行榜首位。

在视觉处理方面,Phi-4多模态模型同样表现出色。其在数学和科学推理方面的能力令人印象深刻,能够有效理解文档、图表和执行光学字符识别(OCR)。与 Gemini-2-Flash-lite-preview 和 Claude-3.5-Sonnet 等流行模型相比,该模型的表现不相上下,甚至更胜一筹。

另一款新发布的 Phi-4迷你模型则专注于文本处理任务,参数量为3800万。在文本推理、数学计算、编程和指令遵循等方面,Phi-4迷你表现卓越,超越了多款流行的大型语言模型。为了确保新模型的安全性和可靠性,微软邀请了内部与外部的安全专家进行全面测试,并按照微软人工智能红队(AIRT)的标准进行优化。

这两款新模型均可通过 ONNX Runtime 部署到不同设备上,适用于多种低成本和低延迟的应用场景。它们已在 Azure AI Foundry、Hugging Face 和 NVIDIA API 目录中上线,供开发者使用。毫无疑问,Phi-4系列的新模型标志着微软在高效 AI 技术上的重大进步,为未来的人工智能应用打开了新的可能性。

  • 相关推荐
  • 寒武纪智能芯片赋能多模态大模型应用

    大模型快速发展推动人工智能技术迈向新阶段,从解决特定任务的弱人工智能向处理通用复杂任务的强人工智能演进。IDC报告显示,2024年中国大模型开发平台市场规模达16.9亿元,人工智能算力市场约190亿美元,预计2025年将达259亿美元。寒武纪等企业专注AI芯片研发,推出多款处理器及加速卡产品,支持大模型训练推理及多模态任务,并与产业链合作共同推进人工智能产业发展。

  • 微软发布AI截图工具,截图一键转PPT

    微软电脑管家推出全新“智能圈选”功能,通过AI技术实现截图内容的智能识别与重构。用户只需圈选截图区域,即可一键完成文字提取、多语言翻译及PPT转换等操作,大幅提升办公和学习效率。该功能支持100多种语言,保留原始格式,并能智能修复遮挡内容,彻底改变了传统截图处理方式。

  • OpenAI发布语音模型GPT-realtim:具备情感感知能力 多语言无缝切换

    OpenAI正式发布语音模型GPT-realtime。 据介绍,GPT-realtime是一款专注于语音AI Agent的多模态模型,能够生成高度自然流畅的语音,精准还原人类语调、情感和语速的丰富变化。该模型支持图像理解,并可结合语音或文本对话使用,非常适合应用于客服、教育、金融、医疗等领域,用于构建高质量的语音智能体。 官方表示,新模型在复杂指令遵循、工具精确调用以及生成更自然、�

  • iPhone 17系列今晚发布:苹果发布会新品揭晓

    iPhone17Pro/Max采用全新三摄布局,三颗镜头均升级至4800万像素,新增8K视频录制及前后摄像头同录功能。Apple Watch产品线同步迭代,Ultra3支持5G与卫星通信,屏幕亮度显著提升;Series11搭载S11芯片,或新增睡眠评分功能;SE3则通过增大屏幕尺寸补足功能短板。 配件生态方面,AirPods Pro3将引入心率监测

  • AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

    AI日报栏目每日更新AI领域热点内容,聚焦开发者需求。本期重点包括:阶跃星辰发布端到端语音大模型Step-Audio2 mini,在多项基准测试中表现优异;9月1日起AI生成内容需强制标识;美团推出开源大模型LongCat;上海AI实验室发布多模态大模型InternVL3.5;腾讯ARC团队推出音频生成模型AudioStory;OpenAI发布实时语音模型GPT-realtime;Meta与UCSD合作推出DeepConf技术;xAI代码库遭窃事件;阿里巴巴Qwen团队发布GUI自动化框架;微软推出Copilot Labs实验中心;小红书自动化工具xiaohongshu-mcp上线。

  • 苹果发布会前瞻:最大看点iPhone Air iPhone17或成国内首款无卡槽手机

    苹果公司即将于北京时间2025年9月10日发布的iPhone17系列,或将创造中国手机市场新纪录——成为首款取消物理SIM卡槽的智能手机。 据产业链消息,该系列中的iPhone17Air机型将采用极致轻薄设计,机身厚度仅约5.5毫米,较前代缩减25%,为此彻底取消传统卡槽,全面转向eSIM技术。

  • AI日报:海螺AI首尾帧功能上线;元石科技发布问小白5;OpenAI发布全新语音模型GPT-Realtime

    AI日报栏目每日提供人工智能领域热点内容,聚焦开发者,帮助洞悉技术趋势、了解创新AI产品应用。最新动态包括:MiniMax海螺AI首尾帧功能上线;元石科技发布问小白5挑战GPT-5;OpenAI推出语音模型GPT-Realtime;谷歌Gemini AI优化表格处理;腾讯黑科技实现AI配音;百度计划培养千万AI人才;MathGPT.ai反作弊功能推广;苹果Xcode集成Claude Sonnet4;微软发布自研AI模型MAI系列;xAI推出高效编码模型Grok Code Fast1;SuperCLUE多模态评测Gemini-2.5-Pro居首;9月1日起AI内容标识新规实施,违规将承担法律风险。

  • 华为小米发布会前后夹击iPhone 17:压力给到苹果

    小米集团总裁卢伟冰确认,小米16系列发布会提档,相关话题华为小米发布会前后夹击iPhone”引发热议。 有网友表示,华为苹果小米三家大厂组成2025秋季旗舰三部曲”,华为小米前后夹击苹果的盛况属实罕见。 据悉,华为在9月4日推出新一代三折叠屏手机Mate XTs非凡大师,售价17999元起。 随后在北京时间9月10日凌晨,苹果将举办新品发布会,正式推出年度旗舰iPhone 17系列。

  • AI日报:生数科技上线Vidu Q1参考生图;字节跳动发布Seedream4.0;百度文心大模型X1.1发布

    本期AI日报聚焦多项AI技术突破与应用进展。生数科技推出Vidu Q1参考生图功能,支持多图输入与一致性生成;字节跳动发布Seedream4.0多模态图像创作模型,推理速度提升10倍;腾讯推出国内首款全形态AI编程工具CodeBuddy,编码效率提升40%;百度文心大模型X1.1升级深度学习能力;OpenAI支持AI动画长片《Critterz》制作;上海AI实验室发布XTuner V1训练引擎提升效率20%;谷歌AI搜索新增5种语言支持;我国发布30项人工智能和15项人形机器人国家标准,推动行业规范化发展。

  • 王宁掏出迷你版LABUBU

    “这周就要发布Mini版LABUBU,以前可能大家是挂在包上,可能从下周开始,大家甚至可以挂在手机上,它的使用场景会更多,相信它会是一个超级受欢迎的爆款。” 8月20日,在泡泡玛特2025年中期业绩发布会上,泡泡玛特董事长兼CEO王宁化身“带货博主”,从胸前西装口袋中拿出了一个Mini版LABUBU介绍道。 这款即将登场的 Mini 版 LABUBU 仅有掌心大小,延续了LABUBU标志性的搪胶毛�

今日大家都在搜的词: