首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:昆仑万维天工超级智能体发布;OpenAI核心API支持MCP;百度飞桨PaddleOCR 3.0开源

2025-05-22 16:05 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、百度飞桨PaddleOCR3.0开源发布 OCR精度跃升13%

百度飞桨团队发布了PaddleOCR3.0版本,提升了文字识别精度、多语种支持、手写体识别及文档解析能力,新增对国产硬件的支持,并推出PP-OCRv5、PP-StructureV3和PP-ChatOCRv4等核心功能。

image.png

【AiBase提要:】

🚀 全场景文字识别模型PP-OCRv5支持五种文字类型识别,整体精度提升13%,实现无缝部署。

📚 文档解析方案PP-StructureV3强化版面检测、表格识别等能力,在多场景高精度解析中表现卓越。

🤖 智能文档理解方案PP-ChatOCRv4结合文心大模型,关键信息抽取精度提升15%,支持复杂文档处理。

详情链接:https://github.com/PaddlePaddle/PaddleOCR

2、昆仑万维天工超级智能体发布!AI Office革命来袭,Deep Research碾压OpenAI,成本仅40%!

天工超级智能体是一款基于自研Deep Research技术的AI Office智能代理,以其强大的多模态内容生成能力和成本仅为OpenAI40%的优势,引发全球AI社区热议。

image.png

【AiBase提要:】

✨ 天工超级智能体采用多智能体架构,包含5个专家智能体和1个通用智能体,支持一站式生成多种办公内容。

🚀 其核心技术Deep Research模型成本低,效率高,在GAIA基准测试中以82.42分超越OpenAI Deep Research。

🌐 开源框架和低成本部署策略使天工成为中小企业和个人开发者的理想选择。

详情链接:https://mcp.so/server/skywork-super-agents/Skywork-ai

3、OpenAI核心API支持MCP,简化智能体开发流程

OpenAI的Responses API新增MCP支持,大幅降低AI模型与外部工具集成难度,同时推出多项功能升级,如图像生成、代码解释器和优化的文件搜索功能。

image.png

【AiBase提要:】

✨ OpenAI Responses API支持MCP协议,开发者仅需少量代码即可连接外部工具。

🌟 新增功能包括图像生成、代码解释器及优化的文件搜索能力,提升开发效率。

🌐 MCP成为AI智能体开发的事实标准,推动跨平台协作与灵活性。

4、xAI 推出网页搜索API:Live Search,赋能AI实时获取内容

xAI正式推出了Live Search API,这项功能让开发者可以利用Grok模型实时搜索来自多种数据源的信息,极大提升了AI应用的动态信息处理能力。此API目前处于免费公测阶段,为开发者提供了强大的工具来简化搜索逻辑和数据整合。

image.png

【AiBase提要:】

🌟 Live Search API支持自主搜索决策,Grok能根据对话上下文自动判断是否需要搜索,无需人工干预。

🌐 提供多样化数据源,包括X平台、网页、新闻和RSS提要,确保信息全面且实时更新。

🔧 高度灵活且高效集成,支持多种SDK,开发者可轻松调整基础URL和API密钥实现快速接入。

详情链接:https://docs.x.ai/docs/guides/live-search

5、谷歌Sparkify实验产品上线,输入问题秒变动画短片,复杂知识秒懂

谷歌推出的Sparkify利用Gemini和Veo模型,将复杂知识点转化为直观的动画短视频,适用于教育、科普和内容创作领域。

image.png

【AiBase提要:】

✨ 复杂知识点通过动画短视频直观呈现,提升理解效率。

🎥 利用Gemini2.5和Veo2模型,快速生成高质量动画视频。

🌍 支持多语言扩展,未来将覆盖更多地区和人群。

详情链接:https://sparkify.withgoogle.com/explore

6、Mistral 重返开源阵营:发布超高效代码 AI 模型 Devstral

Mistral AI 发布了全新开源语言模型 Devstral,这款轻量级模型专为代理 AI 软件开发设计,性能优越且支持本地运行,展现了开源社区合作的力量。

【AiBase提要:】

Devstral 拥有2400万参数,基于 Apache2.0许可证发布,允许自由部署和商业化。

性能卓越,在 SWE-Bench 验证中超越多数闭源模型,适用于本地和私有化应用场景。

作为 Codestral 系列最新进展,Devstral 支持跨文件上下文理解,适合复杂软件开发任务。

7、Video Ocean发布2K/4K HDR视频生成工具,性价比引爆全网

潞晨科技推出全新AI视频生成工具Video Ocean,支持快速生成高质量大片,提供多种特效与功能,价格低廉且完全免费,掀起创作热潮。

QQ20250522-092505.png

【AiBase提要:】

✨ 支持5-10秒内生成2K/4K HDR高质量视频,适合各种场景创作。

🎥 提供海量模板与特效,如Laugh、Cakeify等,新手也能轻松制作专业级视频。

💰 价格仅为可灵2.0的1/10,完全免费,吸引多类用户群体好评。

8、谷歌推出新工具SynthID Detector ,助力识别AI生成内容

谷歌推出了名为SynthID Detector的新工具,旨在帮助用户检测内容是否由其AI工具生成。该工具能识别AI生成的内容并突出显示带有SynthID水印的部分,目前正面向早期测试者推出。

image.png

【AiBase提要:】

🌟 SynthID Detector是一款新工具,用于识别AI生成的内容,支持图像、文本、音频和视频。

🔍 该工具可自动扫描上传内容,查找并突出显示SynthID水印。

🚀 当前仅向早期测试者开放,未来将逐步推广至更多用户。

详情链接:https://blog.google/technology/ai/google-synthid-ai-content-detector/

9、谷歌AI笔记工具NotebookLM的迅猛崛起

谷歌推出的AI辅助知识管理工具NotebookLM在过去半年内月访问量增长56%,以其创新功能如‘音频概览’、多语言支持及多样化应用场景受到广泛关注。

image.png

【AiBase提要:】

🚀 NotebookLM月访问量增长56%,成为AI应用领域的黑马。

🌐 支持50多种语言生成播客内容,打破语言障碍,提升用户体验。

📚 适用于学生、研究者及内容创作者,从学术到娱乐均能高效使用。

10、硅基流动升级DeepSeek-R1等推理模型API,支持128K上下文长度

硅基流动通过升级其推理模型API,显著提升了最大上下文长度至128K,增强了模型的推理能力和输出质量,同时引入独立控制思维链与回复内容长度的功能,使开发者能更灵活地调整模型性能。

image.png

【AiBase提要:】

🚀 支持128K最大上下文长度,大幅提升模型的思考深度与输出完整性。

🔍 引入独立控制思维链与回复内容长度功能,增强开发者对模型行为的精准调控。

⚠️ 当达到长度限制时,模型输出会被截断并标记原因,确保使用透明性。

详情链接:https://docs.siliconflow.cn/cn/userguide/capabilities/reasoning

11、谷歌DeepMind发布新AI音乐生成模型Lyria2,支持实时创作

Lyria2是谷歌DeepMind发布的最新音乐生成模型,具备高保真音质、实时交互功能和多风格适配性,为音乐创作带来了革命性的变化。

image.png

【AiBase提要:】

🎶 高保真音质:能生成48kHz立体声音频,精准捕捉音乐细节,适用于专业音乐制作及商业项目。

⚡ 实时交互:Lyria RealTime功能让用户可即时调整音乐风格、节奏等,激发创作灵感。

🌐 多模态支持:整合到Music AI Sandbox工具集,支持文本、乐谱或音频片段输入,覆盖多种音乐风格。

详情链接:https://deepmind.google/models/lyria/

12、多模态大模型MMaDA:让AI学会「跨次元思考」,文本图像通吃的全能型选手来了!

我刚读完关于MMaDA的文章,这个由多所顶尖高校和企业联合研发的多模态大模型,以其独特的统一扩散架构、混合长链式思考微调及统一强化学习算法,实现了文本、图像等多模态间的无缝切换和深度推理,表现远超GPT-4等现有模型。

image.png

【AiBase提要:】

🌟统一扩散架构:突破传统多模态模型的壁垒,实现文本、图像等数据类型的无缝处理。

📚混合长链式思考微调:通过跨模态推理对齐,让AI具备深度思考能力。

🏆统一强化学习算法UniGRPO:兼顾推理与生成任务,全面提升AI性能。

详情链接:https://github.com/Gen-Verse/MMaDA

13、微软发布Web智能体Magentic-UI,专门设计用于解决复杂的网页任务

我非常欣赏Magentic-UI的设计理念,它以人为本,强调透明性和可控性,让我在使用AI助手时感到安心。这款工具不仅提升了工作效率,还为开发者提供了强大的开源平台。

【AiBase提要:】

🌐 Magentic-UI 是一款以人为中心的AI智能体研究原型,通过网页浏览器实时协助用户完成复杂任务。

🔄 它引入协作规划和行为防护功能,确保用户在自动化过程中保持主导权,同时保障安全性和灵活性。

💡 由多智能体协同工作,支持计划学习,能从历史任务中优化未来任务的自动化效率。

详情链接:https://github.com/microsoft/Magentic-UI

14、Framer发布全新AI功能,Wireframer秒建网站,Workshop生成交互组件,Vectors2.0与A/B测试引爆设计新热潮!

Framer在I/O2025期间推出了全新AI功能套件,包括Wireframer、Workshop、Advanced Analytics和Vectors2.0,通过AI驱动的网站布局生成、交互组件设计、矢量绘图升级和高级分析工具,显著降低了网站创建的成本和复杂度。

【AiBase提要:】

✨ Wireframer通过自然语言提示快速生成网站布局,极大降低设计门槛。

⚙️ Workshop对话生成交互组件,减少设计与开发间沟通成本,提升协作效率。

📊 Advanced Analytics提供A/B测试与漏斗分析,优化网站性能和用户体验。

举报

  • 相关推荐
  • AI日报:腾讯混元3D生成模型2.5版本发布;海螺推出图像人物参考功能;百度上线移动端超级智能体心响App

    本文介绍了多款AI领域的新产品和技术进展:1)Kortix-AI推出开源通用AI智能体平台Suna;2)腾讯混元3D生成模型升级至2.5版本;3)海螺AI推出基于单张图像生成多角度角色图像功能;4)百度发布"心响"App整合多智能体协作;5)Nari Labs开源媲美真人的对话语音模型Dia;6)Grok新增视觉处理和多语言支持;7)Genspark推出AI幻灯片工具;8)Character.AI发布让静态图片"说话"的AvatarFX模型;9)pad.ws结合白板和代码编辑器;10)OpenBMB开源社区推出长文本生成模型"卷姬";11)腾讯推出AI阅读助手"企鹅读伴";12)OpenAI有意收购Chrome浏览器;13)字节跳动调整AI产品线布局。这些创新展现了AI技术在自动化、3D生成、语音交互、内容创作等领域的快速发展。

  • AI日报OpenAI推出gpt-image-1图像生成API;纳米AI发布MCP能工具箱;中国占全球AI专利60%

    【AI日报】栏目聚焦人工智能领域最新动态:1) OpenAI推出ChatGPT图像生成API,开发者可轻松集成AI绘图功能,已生成超7亿张图片;2) 谷歌Gemini月活用户突破3.5亿,但仍落后于ChatGPT的6亿用户;3) OpenAI预测2029年收入将达1250亿美元,AI代理业务成主要增长点;4) Ostris发布8B参数扩散模型Flex.2-preview,优化ComfyUI工作流;5) 英伟达推出多模态LLM模型Describe Anything,支持指定区域生成详细描�

  • 联想Lecoo战者G1智能体AI眼镜首发1999元:搭载天禧个人超级智能体

    据悉,这款产品搭载天禧个人超级智能体,天禧的突破在于,它首次将感知、认知、决策与自主演进能力深度融合,形成了一套完整的人工智能双胞胎”逻辑。支持AI翻译/AI对话/AI识图,通过Hi小天”启动多模态AI助手。

  • AI日报百度大招!发布文心大模型X1Turbo和AI开放计划;OpenAI免费开放轻量版Deep Research;即梦视频3.0内测

    【AI日报】主要报道了AI领域的最新动态:1)百度发布文心大模型X1Turbo和4.5Turbo,性能价格优势显著;2)百度推出AI开放计划,降低开发者门槛;3)OpenAI免费开放轻量版Deep Research研究工具;4)即梦视频3.0内测展示流畅运镜和精准表情捕捉能力;5)百度发布全球首个内容操作系统"沧舟OS";6)百度文库与网盘联合推出GenFlow超能搭子和AI笔记工具;7)Pixverse推出MCP协议简化AI视频创作;8)Tavus发布突破性唇形同步模型Hummingbird-0;9)豆包1.5深度思考模型上线,提供免费额度;10)Adobe整合OpenAI和Google模型升级Firefly创意平台;11)ImageSlider2.0即将加入Gradio核心产品线;12)李彦宏谈DeepSeek现存痛点,强调多模态能力与降本需求。

  • 谷云科技iPaaS发布 MCP Server加速业务系统API 跨入 MCP 时代

    谷云科技推出iPaaS平台新产品MCP Server,通过MCP协议实现AI模型与企业业务系统的高效集成。该产品能将企业现有API快速转化为MCP工具,使AI模型能像调用本地函数一样调用外部系统接口,大幅降低技术门槛。MCP Server具备完善的安全机制和流量控制策略,支持对API返回数据进行深度优化处理,提升AI模型的数据解析效率。该方案可应用于ERP、CRM等系统数据查询、流程审批等场景,助力企业释放存量API资源价值,加速数字化转型进程。

  • AI日报:阿里通义千问Qwen3问鼎全球开源模型;Kimi长思考模型API发布OpenAI发布新一代GPT-4.1模型

    【AI日报】汇总了近期AI领域重要动态:1)阿里通义千问3开源模型上线7天即登顶全球开源模型榜首,在指令遵循和推理能力上超越闭源模型;2)月之暗面推出Kimi长思考模型API,可解决复杂代码和数学问题;3)OpenAI发布GPT-4.1模型,性能提升显著;4)Google推出Gemini2.5Pro模型,提升开发者编码能力;5)联想发布"天禧超级智能体",具备多模态感知能力;6)腾讯元宝上线"对话分

  • AIbase解锁AI无限可能!MCP 圈疯传的神器,让AI智能体直接原地起飞

    AI时代来临,MCP资源宝库网站(https://mcp.aibase.cn)横空出世,一站式整合12万+AI开发资源。该平台提供网页搜索、数据库交互、图像视频处理等全方位服务,包含DuckDuckGo搜索API、百度地图MCP协议等热门工具。精选服务如Figma设计数据转换、EdgeOne网页快速部署等,大幅提升开发效率。网站还提供详细教程,新手也能轻松上手。紧跟AI发展前沿,这个功能强大、资源丰富的平台为开发者搭建了通往无限可能的桥梁,助力打造更智能的AI应用。

  • AI日报:QQ浏览器升级为AI浏览器;OpenAI全新编程智能体Codex;B站团队推动漫视频生成模型AniSora

    本文介绍了AI领域多项最新进展:1)B站团队推出开源动漫视频生成模型AniSora,支持多种风格创作;2)OpenAI发布编程智能体Codex,提升开发效率;3)Google测试AI问答功能AI Mode;4)ChatGPT将整合MCP协议,支持第三方AI服务对接;5)阿里推出ZeroSearch框架,减少对搜索引擎的依赖;6)Stability AI与Arm合作推出手机端音频生成AI;7)Qwen发布WorldPM系列大模型;8)GPT-5将整合多款产品功能;9)ListenHub上线AI播客生成工具;10)QQ浏览器升级为AI浏览器;11)数学建模AI助手MathModelAgent面世;12)GenSpark推出全球首个智能下载代理;13)谷歌NotebookLM将推出视频摘要功能。这些创新展现了AI技术在各领域的快速发展和广泛应用。

  • OpenAI发布云端AI编程智能体Codex:代码准确率高达90%

    OpenAI于5月19日正式推出基于Codex-1模型的云端AI编程智能体Codex。该工具具备强大的代码生成与理解能力,支持Python、JavaScript、C等主流语言,覆盖前后端开发、算法实现等多个领域。测试显示其处理常规编程任务的速度远超人工,代码准确率达90%以上,能显著提升开发效率。Codex深度集成GitHub,支持智能代码补全和结构化代码自动生成,使开发者平均编码时间缩短30%。目前该服务已面向ChatGPT+Pro等高级用户开放,未来有望成为软件开发领域的标配工具,推动AI辅助编程进入新阶段。

  • 百度优选MCPAI电商新解法

    AI技术正在重塑全球电商行业格局,百度推出MCP开放平台,为开发者提供AI电商解决方案。文章指出,AI已实现24小时智能直播、精准选品匹配、自动化营销等功能,帮助商家降本增效。数据显示,49%美国消费者会使用AI工具辅助购物决策。百度MCP平台整合搜索、交易等能力,开发者可快速调用电商工具,同时获得百度流量支持。目前已有上千开发者加入该平台。专家认为,未来电商竞争将转向AI应用深度和生态开放度,中国企业出海需构建AI技术壁垒。

热文

  • 3 天
  • 7天