首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:GPT-5-Auto现身Mac客户端;阿里开源WebAgent项目WebShaper;腾讯推X-Omni多模态模型

2025-07-31 15:58 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

1、阿里开源WebAgent项目WebShaper,GAIA评测超过Claude4-Sonnet

阿里云通义实验室开源了其自主搜索AI智能体项目WebAgent,其中WebSailor和WebShaper在多个评测中表现优异,展示了其在复杂任务中的强大能力。该项目不仅降低了使用门槛,还为全球AI社区提供了工业级训练框架和评估标准。

image.png

【AiBase提要:】

🌐 WebAgent通过模拟人类搜索行为,实现高效处理复杂网络任务。

🔍 WebSailor-72B模型在权威评测中超越多数闭源模型,展现卓越性能。

📊 WebShaper采用形式化驱动的数据合成方法,提升多步推理准确性。

详情链接:https://github.com/Alibaba-NLP/WebAgent

2、Moonvalley发布Sketch-to-Video功能:手绘草图秒变电影级视频

Moonvalley推出的Sketch-to-Video功能通过手绘草图和文本描述生成高质量视频,为影视制作、广告创意及个人创作提供了便捷的工具。该功能依托Marey模型,具备精准控制和伦理保障,显著降低了视频制作成本与门槛。

【AiBase提要:】

✨ Sketch-to-Video允许用户通过手绘草图和文本生成电影级视频片段。

🎥 Marey模型使用授权素材训练,确保版权安全并提升视频质量。

💡 该功能大幅降低视频制作成本,赋能全球创作者并推动AI与影视行业的深度融合。

3、腾讯AI新突破:X-Omni模型让智能生成告别写字困难症,图文理解生成一步到位

腾讯研究团队推出的X-Omni多模态AI模型在图像生成和理解领域实现了重大突破,特别是在长文本渲染方面表现出色,解决了传统AI模型在文字生成中的准确性问题。该模型通过强化学习框架和统一建模技术,显著提升了输出质量的稳定性和准确性。

image.png

【AiBase提要:】

✨ X-Omni采用强化学习框架优化模型性能,引入多维度奖励机制提升文字渲染准确率。

🧠 实现图像生成与理解功能的统一建模,无需不同模型架构和训练策略。

🚀 在多个基准测试中表现优异,尤其在长文本渲染和图像理解任务中超越主流模型。

详情链接:https://arxiv.org/pdf/2507.22058

4、百度搜索首页将变身AI应用中心?智能体入口灰度测试中

百度搜索正在测试在电脑端首页开放智能体应用入口,用户未来可能直接在搜索框下方访问各类AI应用。该功能目前处于灰度测试阶段,预计不久将全面开放。

image.png

【AiBase提要:】

📌 百度搜索计划在首页开放智能体应用入口,提升用户搜索体验。

💡 智能体主要来源于文心智能体平台、外部优质AI应用及百度自研应用。

🌐 目前该功能处于灰度测试阶段,尚未得到百度官方正式回应。

5、Midjourney 推出“为您推荐”功能:一键解锁个性化图片与视频体验

Midjourney 在探索页面新增了‘为您推荐’按钮,基于用户历史交互数据和偏好学习算法,提供个性化AI生成的图片和视频推荐。这一功能极大提升了用户的创作效率和个性化体验。

image.png

【AiBase提要:】

✨ 用户点击‘为您推荐’按钮即可获取符合自身风格的创意内容。

🔍 系统通过分析用户的历史操作(如点赞、moodboard上传)捕捉风格偏好。

🎨 推荐结果支持参数调整,优化输出效果。

6、GPT-5发布越来越近!GPT-5-Auto 与 GPT-5-Reasoning 现身 Mac 客户端

文章揭示了OpenAI可能正在测试GPT-5的两个新模型,GPT-5-Auto和GPT-5-Reasoning,这些发现暗示其下一代AI模型已进入内部测试阶段,预计2025年夏季正式发布。

image.png

【AiBase提要:】

🤖 GPT-5-Reasoning专注于复杂任务的逻辑拆解与多步推理,表现出色。

🔄 GPT-5-Auto具备高度自动化能力,可执行多步骤任务,减少用户干预。

📅 OpenAI计划在2025年夏季正式发布GPT-5,加速开发进程。

7、Ollama发布桌面客户端!拖拽文档、多模态识别,本地AI从此告别命令行

Ollama推出了桌面客户端,为用户提供了更直观的交互体验。该客户端支持多模态识别和文档拖拽功能,同时保持了本地运行的优势,提升了隐私保护和效率。

image.png

【AiBase提要:】

📱 图形化界面简化操作,降低使用门槛。

🖼️ 多模态识别支持图像与文本交互,提升应用多样性。

🔒 本地运行保障数据隐私,满足合规要求。

详情链接:https://ollama.com/download

8、OWL团队开源全新多智能体工具Eigent:革新复杂任务处理效率

OWL团队推出了全新的多智能体协作工具Eigent,旨在通过多智能体协作提升复杂任务的处理效率。该工具继承了CAMEL和OWL的成功经验,并引入了高效的并行处理机制、灵活的定制能力以及Human-in-the-Loop机制,为AI开源生态带来了重大突破。

image.png

【AiBase提要:】

🧠 **高效任务拆解与并行处理**:Eigent通过多层次并行机制显著提升任务处理效率。

🛠️ **灵活定制与工具整合**:支持动态创建Workforce,整合多种数据源和工具,提高适用性。

🤝 **Human-in-the-Loop机制**:允许用户在关键节点进行人工干预,确保任务精度和主观判断。

详情链接:https://github.com/eigent-ai/eigent

9、OpenAI 今年收入激增至 120 亿美元 周活跃用户破 7 亿大关

OpenAI 在2023年取得了显著的商业成就,前七个月收入达到120亿美元,预计月收入将达到10亿美元。周活跃用户数突破7亿,显示出其产品的广泛市场认可。公司目标到2029年实现年收入1250亿美元。

【AiBase提要:】

🌟 OpenAI 今年前七个月收入达120亿美元,月收入预计10亿美元。

📈 周活跃用户突破7亿,ChatGPT 受到全球用户欢迎。

🚀 OpenAI 目标到2029年年收入增至1250亿美元,展现雄心壮志。

10、英伟达H20算力芯片被约谈:国信办要求说明“追踪定位”及“远程关闭”风险

国家互联网信息办公室就英伟达H20算力芯片的安全风险,特别是‘追踪定位’和‘远程关闭’技术,对英伟达公司进行了约谈。网信办要求英伟达详细说明其对华销售的H20芯片的漏洞后门安全风险问题,并提交相关证明材料。

【AiBase提要:】

📌 国家互联网信息办公室约谈英伟达,关注其H20芯片的‘追踪定位’和‘远程关闭’技术风险。

💡 英伟达的算力芯片存在严重安全漏洞,且相关技术已成熟。

🔍 网信办依据《网络安全法》等法规,要求英伟达提供详细说明和证明材料。

11、万兴科技惊艳登榜!天幕2.0模型成国内第四,携手华为云共建AI视频实验室

万兴科技凭借天幕2.0模型的出色表现,在AI视频生成领域取得显著进展,并与华为云展开深度合作,共同探索AI技术的应用潜力。

image.png

【AiBase提要:】

🎥 万兴天幕2.0模型在SuperCLUE榜单中位列国内第四,展现了其强大的技术实力。

🤝 与华为云共建AI视频大模型实验室,推动行业技术革新。

🚀 未来合作有望拓展至更多领域,提升用户数字创意体验。

举报

  • 相关推荐
  • 发布 | 中心发布《“人工智能+软件” 发展洞察》

    第四届软件创新发展大会在武汉举行,国家工信安全中心主任江明涛发布《“人工智能+软件”发展洞察》报告。报告指出,“人工智能+软件”已成为产业升级的战略选择,并呈现四大趋势:软件开发从人工编码向AI编程演进;软件产品从AI增强向原生AI发展;交互模式从指令式转向意图式;商业模式从按功能付费变为按成果付费。面对机遇挑战,软件企业应拥抱开源、加强供应链管理、优化组织架构。中心将持续深耕软件产业政策与技术研究,推动高质量发展。

  • 华为鸿蒙7开发者Beta版推送!首创内核快启技术 应用启动更快

    华为近日发布HarmonyOS 7操作系统,同步开启开发者Beta1版招募。该版本安装包约20GB,聚焦系统能力增强、开发工具效率提升、AI辅助编程、多设备适配等七大方面。首创鸿蒙内核应用快启技术,攻克性能与内存难题;升级鸿蒙音频引擎及3DGS空间渲染与重建能力,强化多设备协同体验。首批支持机型包括Mate 80 Pro、Pura 90 Pro Max等。华为提醒测试用户遵守保密协议,禁止截图、录屏等传播行为。

  • 央视首档科技开放麦走进HDC:开发者敢想敢造,鸿蒙生态向上生长

    华为开发者大会(HDC2026)于6月12日至14日举行,展示了鸿蒙生态的多元创新。大会亮点包括:央视首档科技开放麦节目《鸿蒙脑洞大开麦》开播,七组开发者分享将“脑洞”变为温暖应用的故事;系统级AI小艺升级为主动陪伴;开发者展示“一句话生成元服务”、意念控制轮椅、开源鸿蒙微纳卫星等创新。从学者到16岁少年,鸿蒙生态汇聚千行百业,推动个人创意与国家数字基建共振,让科技成为触手可及的微光。

  • 瞄准“拼贴风”,独立开发者做的小工具下载量突破200万

    继 PhotoColors 之后,又一款由独立开发者创作的图像创作工具「dooo0t」,也悄然跑出了一些成绩。(关于 PhotoColors,可移步我们之前的选题《压过醒图,只有2个功能的图像App爬上App Store总榜》) 起初,「dooo0t」只是一个工具属性的网页,在4月13日才推出 App 版本。点点数据显示,其上线一周便冲入国区 iOS 端摄影与录像下载榜 Top8、应用下载总榜前百。上线至今,应用累计下载�

  • 微信正式面向开发者提供接入微信AI生态的能力

    6月8日,微信正式向开发者开放接入微信AI生态的能力。开发者可在“小程序管理后台-AI能力”中授权接入,平台提供两种模式:自动模式可读取小程序源码,无需额外开发;开发模式则允许开发者基于业务特性自主开发,经平台评估后供AI调用。两种模式可同时开启。目前该功能处于内测阶段,用户暂无法体验。微信强调,是否接入由开发者自主决定,不影响现有小程序服务。

  • 华为开发者大会2026:拓维信息及开鸿智谷携手华为,共启万物智联新纪元

    华为开发者大会HDC2026于6月12-14日在东莞举行,聚焦鸿蒙生态进化与AI技术突破,发布HarmonyOS 7及鸿蒙AI核心能力。拓维信息及开鸿智谷作为核心共建伙伴,围绕"AI算力为体、AI+OS为魂"战略,展示基于"在鸿AI+OS"的软硬一体智能化产品,以及能源、交通等行业创新应用。大会还启动HarmonyOS SDK统一生态,推动国产操作系统生态从共建走向共享。

  • 华为鸿蒙7首次亮相 鸿蒙7开发者Beta正式发布

    在6月12日开幕的华为开发者大会2026上,HarmonyOS7正式面向开发者开启Beta测试。此次系统迭代的核心,是将底层逻辑从过往的“App亲和”推向“Agent亲和”,这标志着鸿蒙操作系统开始向智能体架构全面演进。

  • 6月13日锁定央视新闻直播间:听听开发者的“鸿蒙脑洞大开麦”

    16岁高中生用鸿蒙开发专业飞行模拟App;意外失能的“肥牛”与妻子“香蕙”用脑电头带意念控制轮椅、台灯;波黑留学生将鸿蒙“仓颉”从神话变为编程现实,做出AI群聊应用。这些并非虚构,而是鸿蒙开发者正在落地的真实故事。6月13日,中国首档科技开放麦节目《鸿蒙脑洞大开麦》将在HDC 2026期间同步直播,聚焦七组“追光人”,展现中国科技自主创新的集体缩影。

  • 开发者、AIGC工作室的AI生产力神器?智微AI Mini工作站W638深度解析

    随着AI Agent和Agentic AI发展,大模型推理向端侧迁移,但云端部署面临算力成本高、实时性差、数据隐私安全等挑战。智微智能推出AI Mini工作站W638,搭载NVIDIA Jetson AGX Thor模组,提供高达2070 TFLOPS算力、128GB统一内存和2TB NVMe SSD存储,支持本地大模型部署。W638面向AI开发者、AIGC创意工作者和企业智能体用户,实现低延迟、零Token成本、高隐私的AI应用,具备工业级散热和低噪音设计。

  • 卓世科技亮相 2026海南(三亚)人工智能科技大会,具身智能通用大脑赋能自贸港产业升级

    5月19日-25日,2026海南(三亚)人工智能科技大会以“睿见未来”为主题举办。卓世科技作为国家级专精特新“小巨人”企业受邀参展,创始人李伟伟发表主题演讲,展示自研“璇玑玉衡”大模型与具身智能通用大脑技术体系,深度对接海南自贸港AI产业生态。大会聚焦物理AI、智能制造、医疗康养等前沿赛道,搭建政产学研资用一体化平台。卓世科技针对行业痛点,提出分层赋能、即插即用的通用大脑解决方案,涵盖AI数字员工、陪伴交互大脑、非人形协同大脑及人形自主作业大脑等,并公布“数据资产、模型能力、场景方案、适配服务、验证认证”五大货架体系,助力海南打造全球人工智能“自贸高地”。

今日大家都在搜的词: