AI日报：昆仑万维天工智能体发布；OpenAI核心API支持MCP；百度飞桨PaddleOCR 3.0开源

2025-05-22 16:05 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、百度飞桨 PaddleOCR3.0开源发布 OCR精度跃升13%

百度飞桨团队发布了PaddleOCR3.0版本，提升了文字识别精度、多语种支持、手写体识别及文档解析能力，新增对国产硬件的支持，并推出PP-OCRv5、PP-StructureV3和PP-ChatOCRv4等核心功能。

【AiBase提要:】
🚀 全场景文字识别模型PP-OCRv5支持五种文字类型识别，整体精度提升13%，实现无缝部署。
📚 文档解析方案PP-StructureV3强化版面检测、表格识别等能力，在多场景高精度解析中表现卓越。
🤖 智能文档理解方案PP-ChatOCRv4结合文心大模型，关键信息抽取精度提升15%，支持复杂文档处理。
详情链接:https://github.com/PaddlePaddle/PaddleOCR

2、昆仑万维天工超级智能体发布!AI Office革命来袭，Deep Research碾压OpenAI，成本仅40%!

天工超级智能体是一款基于自研Deep Research技术的AI Office智能代理，以其强大的多模态内容生成能力和成本仅为OpenAI40%的优势，引发全球AI社区热议。

【AiBase提要:】
✨ 天工超级智能体采用多智能体架构，包含5个专家智能体和1个通用智能体，支持一站式生成多种办公内容。
🚀 其核心技术Deep Research模型成本低，效率高，在GAIA基准测试中以82.42分超越OpenAI Deep Research。
🌐 开源框架和低成本部署策略使天工成为中小企业和个人开发者的理想选择。
详情链接:https://mcp.so/server/skywork-super-agents/Skywork-ai

3、OpenAI核心API支持MCP，简化智能体开发流程

OpenAI的Responses API新增MCP支持，大幅降低AI模型与外部工具集成难度，同时推出多项功能升级，如图像生成、代码解释器和优化的文件搜索功能。

【AiBase提要:】
✨ OpenAI Responses API支持MCP协议，开发者仅需少量代码即可连接外部工具。
🌟 新增功能包括图像生成、代码解释器及优化的文件搜索能力，提升开发效率。
🌐 MCP成为AI智能体开发的事实标准，推动跨平台协作与灵活性。

4、xAI 推出网页搜索API:Live Search，赋能AI实时获取内容

xAI正式推出了Live Search API，这项功能让开发者可以利用Grok模型实时搜索来自多种数据源的信息，极大提升了AI应用的动态信息处理能力。此API目前处于免费公测阶段，为开发者提供了强大的工具来简化搜索逻辑和数据整合。

【AiBase提要:】
🌟 Live Search API支持自主搜索决策，Grok能根据对话上下文自动判断是否需要搜索，无需人工干预。
🌐 提供多样化数据源，包括X平台、网页、新闻和RSS提要，确保信息全面且实时更新。
🔧 高度灵活且高效集成，支持多种SDK，开发者可轻松调整基础URL和API密钥实现快速接入。
详情链接:https://docs.x.ai/docs/guides/live-search

5、谷歌Sparkify实验产品上线，输入问题秒变动画短片，复杂知识秒懂

谷歌推出的Sparkify利用Gemini和Veo模型，将复杂知识点转化为直观的动画短视频，适用于教育、科普和内容创作领域。

【AiBase提要:】
✨ 复杂知识点通过动画短视频直观呈现，提升理解效率。
🎥 利用Gemini2.5和Veo2模型，快速生成高质量动画视频。
🌍 支持多语言扩展，未来将覆盖更多地区和人群。
详情链接:https://sparkify.withgoogle.com/explore

6、Mistral 重返开源阵营:发布超高效代码 AI 模型 Devstral

Mistral AI 发布了全新开源语言模型 Devstral，这款轻量级模型专为代理 AI 软件开发设计，性能优越且支持本地运行，展现了开源社区合作的力量。

【AiBase提要:】
Devstral 拥有2400万参数，基于 Apache2.0许可证发布，允许自由部署和商业化。
性能卓越，在 SWE-Bench 验证中超越多数闭源模型，适用于本地和私有化应用场景。
作为 Codestral 系列最新进展，Devstral 支持跨文件上下文理解，适合复杂软件开发任务。

7、Video Ocean发布2K/4K HDR视频生成工具，性价比引爆全网

潞晨科技推出全新AI视频生成工具Video Ocean，支持快速生成高质量大片，提供多种特效与功能，价格低廉且完全免费，掀起创作热潮。

【AiBase提要:】
✨ 支持5-10秒内生成2K/4K HDR高质量视频，适合各种场景创作。
🎥 提供海量模板与特效，如Laugh、Cakeify等，新手也能轻松制作专业级视频。
💰 价格仅为可灵2.0的1/10，完全免费，吸引多类用户群体好评。

8、谷歌推出新工具SynthID Detector ，助力识别AI生成内容

谷歌推出了名为SynthID Detector的新工具，旨在帮助用户检测内容是否由其AI工具生成。该工具能识别AI生成的内容并突出显示带有SynthID水印的部分，目前正面向早期测试者推出。

【AiBase提要:】
🌟 SynthID Detector是一款新工具，用于识别AI生成的内容，支持图像、文本、音频和视频。
🔍 该工具可自动扫描上传内容，查找并突出显示SynthID水印。
🚀 当前仅向早期测试者开放，未来将逐步推广至更多用户。
详情链接:https://blog.google/technology/ai/google-synthid-ai-content-detector/

9、谷歌AI笔记工具NotebookLM的迅猛崛起

谷歌推出的AI辅助知识管理工具NotebookLM在过去半年内月访问量增长56%，以其创新功能如‘音频概览’、多语言支持及多样化应用场景受到广泛关注。

【AiBase提要:】
🚀 NotebookLM月访问量增长56%，成为AI应用领域的黑马。
🌐 支持50多种语言生成播客内容，打破语言障碍，提升用户体验。
📚 适用于学生、研究者及内容创作者，从学术到娱乐均能高效使用。

10、硅基流动升级DeepSeek-R1等推理模型API，支持128K上下文长度

硅基流动通过升级其推理模型API，显著提升了最大上下文长度至128K，增强了模型的推理能力和输出质量，同时引入独立控制思维链与回复内容长度的功能，使开发者能更灵活地调整模型性能。

【AiBase提要:】
🚀 支持128K最大上下文长度，大幅提升模型的思考深度与输出完整性。
🔍 引入独立控制思维链与回复内容长度功能，增强开发者对模型行为的精准调控。
⚠️ 当达到长度限制时，模型输出会被截断并标记原因，确保使用透明性。
详情链接:https://docs.siliconflow.cn/cn/userguide/capabilities/reasoning

11、谷歌DeepMind发布新AI音乐生成模型Lyria2，支持实时创作

Lyria2是谷歌DeepMind发布的最新音乐生成模型，具备高保真音质、实时交互功能和多风格适配性，为音乐创作带来了革命性的变化。

【AiBase提要:】
🎶 高保真音质:能生成48kHz立体声音频，精准捕捉音乐细节，适用于专业音乐制作及商业项目。
⚡ 实时交互:Lyria RealTime功能让用户可即时调整音乐风格、节奏等，激发创作灵感。
🌐 多模态支持:整合到Music AI Sandbox工具集，支持文本、乐谱或音频片段输入，覆盖多种音乐风格。
详情链接:https://deepmind.google/models/lyria/

12、多模态大模型MMaDA:让AI学会「跨次元思考」，文本图像通吃的全能型选手来了!

我刚读完关于MMaDA的文章，这个由多所顶尖高校和企业联合研发的多模态大模型，以其独特的统一扩散架构、混合长链式思考微调及统一强化学习算法，实现了文本、图像等多模态间的无缝切换和深度推理，表现远超GPT-4等现有模型。

【AiBase提要:】
🌟统一扩散架构:突破传统多模态模型的壁垒，实现文本、图像等数据类型的无缝处理。
📚混合长链式思考微调:通过跨模态推理对齐，让AI具备深度思考能力。
🏆统一强化学习算法UniGRPO:兼顾推理与生成任务，全面提升AI性能。
详情链接:https://github.com/Gen-Verse/MMaDA

13、微软发布Web智能体Magentic-UI，专门设计用于解决复杂的网页任务

我非常欣赏Magentic-UI的设计理念，它以人为本，强调透明性和可控性，让我在使用AI助手时感到安心。这款工具不仅提升了工作效率，还为开发者提供了强大的开源平台。

【AiBase提要:】
🌐 Magentic-UI 是一款以人为中心的AI智能体研究原型，通过网页浏览器实时协助用户完成复杂任务。
🔄 它引入协作规划和行为防护功能，确保用户在自动化过程中保持主导权，同时保障安全性和灵活性。
💡 由多智能体协同工作，支持计划学习，能从历史任务中优化未来任务的自动化效率。
详情链接:https://github.com/microsoft/Magentic-UI

14、Framer发布全新AI功能，Wireframer秒建网站，Workshop生成交互组件，Vectors2.0与A/B测试引爆设计新热潮!

Framer在I/O2025期间推出了全新AI功能套件，包括Wireframer、Workshop、Advanced Analytics和Vectors2.0，通过AI驱动的网站布局生成、交互组件设计、矢量绘图升级和高级分析工具，显著降低了网站创建的成本和复杂度。

【AiBase提要:】
✨ Wireframer通过自然语言提示快速生成网站布局，极大降低设计门槛。
⚙️ Workshop对话生成交互组件，减少设计与开发间沟通成本，提升协作效率。
📊 Advanced Analytics提供A/B测试与漏斗分析，优化网站性能和用户体验。

（举报）

相关推荐

关键词：

“人工智能+”时代，企业做对什么才能抢占先机？

国务院8月26日发布《关于深入实施“人工智能+”行动的意见》，提出加快AI技术与实体经济深度融合，推动产业智能化升级。到2035年，我国将全面步入智能经济和社会新阶段。金蝶集团作为企业数字化服务商，以“AI优先”为战略，将AI技术深度融入SaaS产品与服务，推出金蝶云·星空EMA平台及多款智能产品，覆盖财务、供应链、差旅等场景，助力企业构建“AI+业务”新能力，实现高效管理与创新发展。

人工智能数字化转型产业智能化
市值一日暴增近3000亿港元，阿里迈向超级人工智能之路

9月24日，阿里巴巴股价创下四年新高，单日涨超9%，市值达到约3.32万亿港元，一日增加近3000亿港元。引爆股价的，是阿里集团每年一度的云栖大会。在会上，阿里释放多条重磅消息，尤其是在阿里集团CEO、阿里云智能集团董事长兼CEO吴泳铭的演讲结束后，阿里的股价表现就出现了明显的拉升。

阿里巴巴云栖大会股价
腾讯云安全发布人工智能风险评估框架，助企业构建可信智能体

9月17日，腾讯云在2025全球数字生态大会上发布人工智能风险控制框架及多款安全产品。该框架涵盖六大风险模块、七层级、130余项措施，系统性应对AI应用全生命周期的安全挑战，包括数据泄露、供应链隐患及权限滥用等核心问题。同时推出LLM-WAF防火墙、AI-SPM态势管理等产品，构建覆盖研发、部署、运维的全链路防护体系，助力企业建立可信、稳定的AI服务生态。

AI安全智能体安全风险评估
2025 世界设计之都大会“创意可计算性：设计人工智能”，特赞升级五大内容+AI解决方案

2025年9月25日至28日，上海将举办世界设计之都大会（WDCC2025），主题为“设计无界，生生不息”。大会聚焦人工智能赋能设计创新，探讨设计如何驱动产业与城市可持续发展。特赞科技作为内容与AI领域代表企业，将展示“计算×创意”如何拓展设计生命力，包括跨行业赋能、产教融合及人机协作三大板块，呈现AI在打破学科边界、推动产业创新中的实践。WDCC2025旨在为全球设计领域注入新动能，构建“设计×科技×可持续”的新想象空间。

世界设计之都大会设计无界设计人工智能
每日互动参与发起《人工智能安全行业自律倡议》守护人工智能产业可持续发展

9月17日，2025年国家网络安全宣传周人工智能安全治理分论坛在昆明召开，会上正式发布《人工智能安全行业自律倡议》。该倡议由中国网络空间安全协会联合多家科研院所、互联网头部企业、网络安全厂商及人工智能企业共同发起，提出筑牢安全根基、强化技管结合、深化协同共治等七方面共识，旨在推动构建可控、可信、可靠的人工智能产业生态，为全球人工智能治理贡献中国智慧。

人工智能安全行业自律倡议网络安全
突破 Mini LED！三星 Micro RGB 引航显示进入 Micro 时代

三星在京东方MALL举办“AI的呵护”家电线下体验展，展出全球首款Micro RGB电视115MR95F。该电视采用Micro RGB技术，实现100% BT.2020色域覆盖，色彩精准度与对比度达到新高度。搭载AI芯片优化画质，支持144Hz刷新率与杜比全景声，定价199,999元。三星借此布局超高端市场，展示Micro RGB+QD-OLED+Micro LED三大技术矩阵，重塑显示行业格局。

AI家电 Micro RGB电视
马斯克：Grok 5模型有望实现通用人工智能的突破

马斯克旗下xAI公司正研发Grok 5模型，有望实现通用人工智能（AGI）重大突破。该模型采用全新架构设计，预计未来几周启动训练。若成功将代表AI从专用领域向通用认知能力的质的飞跃，被视为人工智能发展的终极目标。科技界密切关注xAI能否在激烈竞争的大模型赛道实现突破。

Grok 5 AGI
性能超越GPT-4o及Qwen2.5-VL，百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度第一

百度发布超轻量级文字识别模型PP-OCRv5，仅0.07B参数却实现媲美700亿参数大模型的OCR精度。在多项测试中超越GPT-4o等通用视觉大模型，尤其在文本定位和边界框精度上表现优异。该模型支持5种文字类型识别，适用于教育、医疗、法律等多行业数字化需求，累计下载量超900万，是GitHub上唯一Star数超5万的中国OCR项目。

PP-OCRv5 轻量级OCR 文字识别模型
十方融海：以开源生态为基，绘就“人工智能 +”产业融合新蓝图

国务院印发《关于深入实施“人工智能+”行动的意见》，推动AI技术与产业深度融合。深圳企业十方融海凭借AI大模型研发、产品创新及开源生态构建等领域的卓越实践，成为行业先锋。其开源模型如OpenBuddy、小智AI等突破传统技术局限，实现多模态交互与跨领域知识融合，覆盖教育、办公、养老、文体等多元场景。通过开放共享模式，十方融海有效降低AI应用门槛，激发行业创新活力，助力我国人工智能产业迈向新征程。

人工智能政策引领 AI大模型
行业首份AI CRM选型标准发布，销售易携手中国信通院共谋AI CRM未来发展新路径

中国信息通信研究院与销售易联合发布《智能驱动增长-人工智能客户关系管理系统研究报告》，标志着AI+CRM领域进入标准化发展新阶段。报告系统分析了AI原生架构、大模型应用及行业实践，为产业提供权威框架。销售易凭借市场领导地位、前瞻技术布局及服务大型企业的实践经验，成为行业标杆。此次合作体现了国家智库与领军企业共同推动数字经济高质量发展的示范意义。

中国信通院 AI CRM

今日大家都在搜的词：

热文

3 天
7天

AI日报：昆仑万维天工智能体发布；OpenAI核心API支持MCP；百度飞桨PaddleOCR 3.0开源

“人工智能+”时代，企业做对什么才能抢占先机？

市值一日暴增近3000亿港元，阿里迈向超级人工智能之路

腾讯云安全发布人工智能风险评估框架，助企业构建可信智能体

2025 世界设计之都大会“创意可计算性：设计人工智能”，特赞升级五大内容+AI解决方案

每日互动参与发起《人工智能安全行业自律倡议》守护人工智能产业可持续发展

突破 Mini LED！三星 Micro RGB 引航显示进入 Micro 时代

马斯克：Grok 5模型有望实现通用人工智能的突破

性能超越GPT-4o及Qwen2.5-VL，百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度第一

十方融海：以开源生态为基，绘就“人工智能 +”产业融合新蓝图

行业首份AI CRM选型标准发布，销售易携手中国信通院共谋AI CRM未来发展新路径

今日大家都在搜的词：

热文

雷军：小米17系列开售仅5天销量破100万台

微信又更新了撤回消息有大变化：可撤回本次发送的全部消息

雷军：小米17系列首销权益延续至10月31日

理想汽车推出焕新版L系限时优惠 10 月 8 日前享1.5万置换补贴

比特币价格突破12.5万美元刷新历史最高纪录

小米回应“小米汽车突然自己开走”：排除车辆质量问题

小米17 1TB版明日开售售价5299元

雷军：小米17系列开售仅5天销量破100万台

腾讯混元图像3.0登顶LMArena榜一

乔布斯逝世14周年库克发文缅怀：我们深切怀念你

小米 17 标准版1TB版本 5299 元开售全系列销量同比增超20%

微信又更新了撤回消息有大变化：可撤回本次发送的全部消息

雷军：小米17系列首销权益延续至10月31日

站长商机