首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:昆仑万维天工智能体发布;OpenAI核心API支持MCP;百度飞桨PaddleOCR 3.0开源

2025-05-22 16:05 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、百度飞桨PaddleOCR3.0开源发布 OCR精度跃升13%

百度飞桨团队发布了PaddleOCR3.0版本,提升了文字识别精度、多语种支持、手写体识别及文档解析能力,新增对国产硬件的支持,并推出PP-OCRv5、PP-StructureV3和PP-ChatOCRv4等核心功能。

image.png

【AiBase提要:】

🚀 全场景文字识别模型PP-OCRv5支持五种文字类型识别,整体精度提升13%,实现无缝部署。

📚 文档解析方案PP-StructureV3强化版面检测、表格识别等能力,在多场景高精度解析中表现卓越。

🤖 智能文档理解方案PP-ChatOCRv4结合文心大模型,关键信息抽取精度提升15%,支持复杂文档处理。

详情链接:https://github.com/PaddlePaddle/PaddleOCR

2、昆仑万维天工超级智能体发布!AI Office革命来袭,Deep Research碾压OpenAI,成本仅40%!

天工超级智能体是一款基于自研Deep Research技术的AI Office智能代理,以其强大的多模态内容生成能力和成本仅为OpenAI40%的优势,引发全球AI社区热议。

image.png

【AiBase提要:】

✨ 天工超级智能体采用多智能体架构,包含5个专家智能体和1个通用智能体,支持一站式生成多种办公内容。

🚀 其核心技术Deep Research模型成本低,效率高,在GAIA基准测试中以82.42分超越OpenAI Deep Research。

🌐 开源框架和低成本部署策略使天工成为中小企业和个人开发者的理想选择。

详情链接:https://mcp.so/server/skywork-super-agents/Skywork-ai

3、OpenAI核心API支持MCP,简化智能体开发流程

OpenAI的Responses API新增MCP支持,大幅降低AI模型与外部工具集成难度,同时推出多项功能升级,如图像生成、代码解释器和优化的文件搜索功能。

image.png

【AiBase提要:】

✨ OpenAI Responses API支持MCP协议,开发者仅需少量代码即可连接外部工具。

🌟 新增功能包括图像生成、代码解释器及优化的文件搜索能力,提升开发效率。

🌐 MCP成为AI智能体开发的事实标准,推动跨平台协作与灵活性。

4、xAI 推出网页搜索API:Live Search,赋能AI实时获取内容

xAI正式推出了Live Search API,这项功能让开发者可以利用Grok模型实时搜索来自多种数据源的信息,极大提升了AI应用的动态信息处理能力。此API目前处于免费公测阶段,为开发者提供了强大的工具来简化搜索逻辑和数据整合。

image.png

【AiBase提要:】

🌟 Live Search API支持自主搜索决策,Grok能根据对话上下文自动判断是否需要搜索,无需人工干预。

🌐 提供多样化数据源,包括X平台、网页、新闻和RSS提要,确保信息全面且实时更新。

🔧 高度灵活且高效集成,支持多种SDK,开发者可轻松调整基础URL和API密钥实现快速接入。

详情链接:https://docs.x.ai/docs/guides/live-search

5、谷歌Sparkify实验产品上线,输入问题秒变动画短片,复杂知识秒懂

谷歌推出的Sparkify利用Gemini和Veo模型,将复杂知识点转化为直观的动画短视频,适用于教育、科普和内容创作领域。

image.png

【AiBase提要:】

✨ 复杂知识点通过动画短视频直观呈现,提升理解效率。

🎥 利用Gemini2.5和Veo2模型,快速生成高质量动画视频。

🌍 支持多语言扩展,未来将覆盖更多地区和人群。

详情链接:https://sparkify.withgoogle.com/explore

6、Mistral 重返开源阵营:发布超高效代码 AI 模型 Devstral

Mistral AI 发布了全新开源语言模型 Devstral,这款轻量级模型专为代理 AI 软件开发设计,性能优越且支持本地运行,展现了开源社区合作的力量。

【AiBase提要:】

Devstral 拥有2400万参数,基于 Apache2.0许可证发布,允许自由部署和商业化。

性能卓越,在 SWE-Bench 验证中超越多数闭源模型,适用于本地和私有化应用场景。

作为 Codestral 系列最新进展,Devstral 支持跨文件上下文理解,适合复杂软件开发任务。

7、Video Ocean发布2K/4K HDR视频生成工具,性价比引爆全网

潞晨科技推出全新AI视频生成工具Video Ocean,支持快速生成高质量大片,提供多种特效与功能,价格低廉且完全免费,掀起创作热潮。

QQ20250522-092505.png

【AiBase提要:】

✨ 支持5-10秒内生成2K/4K HDR高质量视频,适合各种场景创作。

🎥 提供海量模板与特效,如Laugh、Cakeify等,新手也能轻松制作专业级视频。

💰 价格仅为可灵2.0的1/10,完全免费,吸引多类用户群体好评。

8、谷歌推出新工具SynthID Detector ,助力识别AI生成内容

谷歌推出了名为SynthID Detector的新工具,旨在帮助用户检测内容是否由其AI工具生成。该工具能识别AI生成的内容并突出显示带有SynthID水印的部分,目前正面向早期测试者推出。

image.png

【AiBase提要:】

🌟 SynthID Detector是一款新工具,用于识别AI生成的内容,支持图像、文本、音频和视频。

🔍 该工具可自动扫描上传内容,查找并突出显示SynthID水印。

🚀 当前仅向早期测试者开放,未来将逐步推广至更多用户。

详情链接:https://blog.google/technology/ai/google-synthid-ai-content-detector/

9、谷歌AI笔记工具NotebookLM的迅猛崛起

谷歌推出的AI辅助知识管理工具NotebookLM在过去半年内月访问量增长56%,以其创新功能如‘音频概览’、多语言支持及多样化应用场景受到广泛关注。

image.png

【AiBase提要:】

🚀 NotebookLM月访问量增长56%,成为AI应用领域的黑马。

🌐 支持50多种语言生成播客内容,打破语言障碍,提升用户体验。

📚 适用于学生、研究者及内容创作者,从学术到娱乐均能高效使用。

10、硅基流动升级DeepSeek-R1等推理模型API,支持128K上下文长度

硅基流动通过升级其推理模型API,显著提升了最大上下文长度至128K,增强了模型的推理能力和输出质量,同时引入独立控制思维链与回复内容长度的功能,使开发者能更灵活地调整模型性能。

image.png

【AiBase提要:】

🚀 支持128K最大上下文长度,大幅提升模型的思考深度与输出完整性。

🔍 引入独立控制思维链与回复内容长度功能,增强开发者对模型行为的精准调控。

⚠️ 当达到长度限制时,模型输出会被截断并标记原因,确保使用透明性。

详情链接:https://docs.siliconflow.cn/cn/userguide/capabilities/reasoning

11、谷歌DeepMind发布新AI音乐生成模型Lyria2,支持实时创作

Lyria2是谷歌DeepMind发布的最新音乐生成模型,具备高保真音质、实时交互功能和多风格适配性,为音乐创作带来了革命性的变化。

image.png

【AiBase提要:】

🎶 高保真音质:能生成48kHz立体声音频,精准捕捉音乐细节,适用于专业音乐制作及商业项目。

⚡ 实时交互:Lyria RealTime功能让用户可即时调整音乐风格、节奏等,激发创作灵感。

🌐 多模态支持:整合到Music AI Sandbox工具集,支持文本、乐谱或音频片段输入,覆盖多种音乐风格。

详情链接:https://deepmind.google/models/lyria/

12、多模态大模型MMaDA:让AI学会「跨次元思考」,文本图像通吃的全能型选手来了!

我刚读完关于MMaDA的文章,这个由多所顶尖高校和企业联合研发的多模态大模型,以其独特的统一扩散架构、混合长链式思考微调及统一强化学习算法,实现了文本、图像等多模态间的无缝切换和深度推理,表现远超GPT-4等现有模型。

image.png

【AiBase提要:】

🌟统一扩散架构:突破传统多模态模型的壁垒,实现文本、图像等数据类型的无缝处理。

📚混合长链式思考微调:通过跨模态推理对齐,让AI具备深度思考能力。

🏆统一强化学习算法UniGRPO:兼顾推理与生成任务,全面提升AI性能。

详情链接:https://github.com/Gen-Verse/MMaDA

13、微软发布Web智能体Magentic-UI,专门设计用于解决复杂的网页任务

我非常欣赏Magentic-UI的设计理念,它以人为本,强调透明性和可控性,让我在使用AI助手时感到安心。这款工具不仅提升了工作效率,还为开发者提供了强大的开源平台。

【AiBase提要:】

🌐 Magentic-UI 是一款以人为中心的AI智能体研究原型,通过网页浏览器实时协助用户完成复杂任务。

🔄 它引入协作规划和行为防护功能,确保用户在自动化过程中保持主导权,同时保障安全性和灵活性。

💡 由多智能体协同工作,支持计划学习,能从历史任务中优化未来任务的自动化效率。

详情链接:https://github.com/microsoft/Magentic-UI

14、Framer发布全新AI功能,Wireframer秒建网站,Workshop生成交互组件,Vectors2.0与A/B测试引爆设计新热潮!

Framer在I/O2025期间推出了全新AI功能套件,包括Wireframer、Workshop、Advanced Analytics和Vectors2.0,通过AI驱动的网站布局生成、交互组件设计、矢量绘图升级和高级分析工具,显著降低了网站创建的成本和复杂度。

【AiBase提要:】

✨ Wireframer通过自然语言提示快速生成网站布局,极大降低设计门槛。

⚙️ Workshop对话生成交互组件,减少设计与开发间沟通成本,提升协作效率。

📊 Advanced Analytics提供A/B测试与漏斗分析,优化网站性能和用户体验。

举报

  • 相关推荐
  • 海尔冰箱唯一获批“制冷家电人工智能技术山东省工程研究中心”

    海尔冰箱在人工智能领域取得新突破,主导建设的"制冷家电人工智能技术山东省工程研究中心"成为2025年山东省工程研究中心认定名单中唯一入选的冰箱品牌。该中心聚焦人工智能、物联网、大数据等技术方向,开发了全空间智慧保鲜舱冰箱等140多项行业首创产品,近三年获授权发明专利803件。海尔冰箱还推出行业首款接入DeepSeek的AI全空间保鲜冰箱,具备方言识别、降噪技术等功能,显著提升用户体验。市场数据显示,2023年1-7月海尔冰箱以47%市场份额稳居行业第一。通过AI技术赋能,海尔冰箱正引领行业向精准、智能保鲜时代跨越。

  • 下一个爆款在哪儿?2025英特尔人工智能创新应用大赛获奖名单揭晓

    8月16日,2025英特尔人工智能创新应用大赛总决赛在深圳落幕。40支优秀团队从2817支队伍中脱颖而出,围绕工业、教育、心理健康、游戏等领域展开对决。大赛展示了AI从云端走向边缘的趋势,依托酷睿Ultra处理器和低代码开发工具,推动AI应用本地化落地。获奖作品包括动力电池机器人协作拆卸系统和AI生成PPT服务,体现AI与产业需求的深度融合。英特尔与联想、惠普等合作伙伴共同为开发者提供全栈支持,加速AI技术普及和商业化进程。

  • ISC.AI 2025 人工智能安全治理与创新实践论坛圆满召开

    ISC.AI2025人工智能安全论坛在北京召开,聚焦AI安全治理与创新实践。论坛汇集顶尖专家,探讨大模型安全评估与防护、智能体安全、AI治理等前沿议题。360集团张向征指出,随着Agent技术爆发式应用,AI安全已成为产业核心焦点。专家们强调需构建AI安全防护体系,应对大模型直接访问核心系统带来的全新挑战。中国电子院彭健提出企业合规建设需关注九大要素,清华大学苏航揭示智能体安全风险远超传统AI。华为云范建军倡导端到端大模型安全防护,中国信通院杨哲超呼吁构建协同治理框架。论坛为构建安全、普惠、负责任的人工智能未来贡献智慧。

  • 三星全球首发Micro RGB,为高端显示技术树立标杆

    三星电子发布全球首款Micro RGB显示技术,采用小于100微米的微型RGB LED阵列,实现精准独立控光。该技术突破性地应用于115英寸超大屏幕,带来100% BT.2020色域覆盖和VDE认证的精准色彩表现。搭载AI引擎可实时优化画质,配备防眩光技术和超薄金属机身。产品集成Vision AI系统,支持生成式AI语音助手Bixby,并配备三星Knox安全方案,提供7年Tizen系统更新支持。这款产品重新定义了高端显示标准,即将登陆中国市场。

  • Razer(雷蛇)在新加坡设立AI CENTER OF EXCELLENCE,加速人工智能投资布局

    雷蛇宣布在新加坡设立全球AI卓越中心,并计划在欧洲和美国建立类似机构,推动游戏与开发者工具领域的创新。新加坡中心将招聘150名AI工程师,专注于下一代AI游戏技术研发。雷蛇还推出AI工具套件,包括Game Co-AI和QA Co-AI,帮助开发者提升游戏质量和开发效率。该战略布局正值全球游戏市场快速增长期,预计2033年AI游戏市场规模将达280亿美元。新加坡数字产业发展局表示,此举将巩固该国作为区域AI创新中心的地位。

  • 百度第一!百度智能云一见领跑视觉大模型赛道

    IDC最新报告显示,百度智能云凭借"文心一言4.5"多模态大模型和"文心X1"深度思考模型,在视觉大模型领域综合实力排名第一。其智能云平台在算法模型、工程化落地、行业覆盖等方面优势显著,已服务餐饮、钢铁、电力等20多个行业,帮助数百家企业实现生产全环节的数字化管理。典型案例包括:为风电集团构建安全管控系统,巡检效率提升6-10倍;与中钢研合作金相分析模型,检测准确率达95%;助力连锁餐饮实现全国1000+门店服务质量量化管理,订单覆盖率从5%提升至95%。通过"云端大模型+边缘小模型"的协同架构,在保障精度的同时大幅降低应用成本,推动专业级视觉AI应用普及。

  • 百度搜索PC端全量上线AI功能

    百度对外宣布其搜索PC端首页已完成全量升级,将传统信息入口一举升级为任务中枢,为用户带来前所未有的智能搜索体验,进一步巩固了其在国内AI搜索行业的领先地位。 此次升级后的百度搜索PC端首页亮点纷呈。新增的“超级智能双行框”成为一大核心亮点,它支持用户一键进行深度搜索,无论是面对复杂的专业问题,还是多维度信息需求,都能快速给出精准且全面的解答

  • AI CRM如何跨越落地鸿沟?场景驱动与数据闭环成关键

    销售易发布中国首款AI CRM产品NeoAgent,标志着CRM行业进入智能化变革。该产品基于腾讯混元大模型+DeepSeek开源模型,提供多场景智能解决方案。AI CRM的核心价值在于数据驱动,通过构建统一客户数据平台,实现销售全流程智能化。目前已在客户服务、销售助理等场景落地,其中销售助理Agent可提升70%事务性工作效率。企业应用AI需关注数据基础与场景适配性,销售易通过"场景需求-产品供给-使用反馈-快速迭代"的闭环模式,推动AI CRM持续进化。在Agentic AI时代,数据能力成为企业智能化转型的关键竞争力。

  • 销售易入选2025Gartner SFA魔力象限,连续9年领跑中国CRM

    Gartner最新报告显示,腾讯旗下销售易CRM连续九年入选销售自动化魔力象限,仍是唯一入选的中国CRM厂商。报告强调AI能力成为核心考核标准,销售易凭借NeoAgent平台实现销售全流程智能化,支持企业构建定制化AI助手。其核心竞争力体现在三方面:1)AI驱动,通过智能评估线索和客户健康度提升决策质量;2)协同化,深度集成企业微信等腾讯生态工具,实现全员营销;3)全球化布局,支持多语言多币种,符合GDPR等国际合规要求。当前全球入选厂商从2019年21家缩减至13家,销售易多项指标超越国际厂商,展现中国SaaS领军实力。

  • 告别“数据录入机器”:ToB智能体如何让CRM回归业务本质

    2025年腾讯全球数字生态大会上,销售易推出首款AI CRM产品NeoAgent,基于大模型技术重构企业销售流程。该产品通过语音指令自动完成客户拜访规划、关联历史数据并生成策略建议,实现从菜单点击到自然对话的交互变革。销售易通过"三阶跃迁"模式:解放双手的语音转结构化记录、突破菜单层级的智能检索、结合销售方法论的场景赋能,深度重构CRM系统。产品依托统一数据平台,实现多模态信息整合与权限管控,采用混合模型架构平衡响应速度与决策质量。目前已在米其林等企业应用中显著提升销售转化率,并通过"用户+流量"混合收费模式验证商业化路径。这标志着ToB领域AI正从效率工具向"数字同事"进化,其核心价值在于理解业务、适配场景并创造增量。

今日大家都在搜的词: