首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:GPT-5-Auto现身Mac客户端;阿里开源WebAgent项目WebShaper;腾讯推X-Omni多模态模型

2025-07-31 15:58 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

1、阿里开源WebAgent项目WebShaper,GAIA评测超过Claude4-Sonnet

阿里云通义实验室开源了其自主搜索AI智能体项目WebAgent,其中WebSailor和WebShaper在多个评测中表现优异,展示了其在复杂任务中的强大能力。该项目不仅降低了使用门槛,还为全球AI社区提供了工业级训练框架和评估标准。

image.png

【AiBase提要:】

🌐 WebAgent通过模拟人类搜索行为,实现高效处理复杂网络任务。

🔍 WebSailor-72B模型在权威评测中超越多数闭源模型,展现卓越性能。

📊 WebShaper采用形式化驱动的数据合成方法,提升多步推理准确性。

详情链接:https://github.com/Alibaba-NLP/WebAgent

2、Moonvalley发布Sketch-to-Video功能:手绘草图秒变电影级视频

Moonvalley推出的Sketch-to-Video功能通过手绘草图和文本描述生成高质量视频,为影视制作、广告创意及个人创作提供了便捷的工具。该功能依托Marey模型,具备精准控制和伦理保障,显著降低了视频制作成本与门槛。

【AiBase提要:】

✨ Sketch-to-Video允许用户通过手绘草图和文本生成电影级视频片段。

🎥 Marey模型使用授权素材训练,确保版权安全并提升视频质量。

💡 该功能大幅降低视频制作成本,赋能全球创作者并推动AI与影视行业的深度融合。

3、腾讯AI新突破:X-Omni模型让智能生成告别写字困难症,图文理解生成一步到位

腾讯研究团队推出的X-Omni多模态AI模型在图像生成和理解领域实现了重大突破,特别是在长文本渲染方面表现出色,解决了传统AI模型在文字生成中的准确性问题。该模型通过强化学习框架和统一建模技术,显著提升了输出质量的稳定性和准确性。

image.png

【AiBase提要:】

✨ X-Omni采用强化学习框架优化模型性能,引入多维度奖励机制提升文字渲染准确率。

🧠 实现图像生成与理解功能的统一建模,无需不同模型架构和训练策略。

🚀 在多个基准测试中表现优异,尤其在长文本渲染和图像理解任务中超越主流模型。

详情链接:https://arxiv.org/pdf/2507.22058

4、百度搜索首页将变身AI应用中心?智能体入口灰度测试中

百度搜索正在测试在电脑端首页开放智能体应用入口,用户未来可能直接在搜索框下方访问各类AI应用。该功能目前处于灰度测试阶段,预计不久将全面开放。

image.png

【AiBase提要:】

📌 百度搜索计划在首页开放智能体应用入口,提升用户搜索体验。

💡 智能体主要来源于文心智能体平台、外部优质AI应用及百度自研应用。

🌐 目前该功能处于灰度测试阶段,尚未得到百度官方正式回应。

5、Midjourney 推出“为您推荐”功能:一键解锁个性化图片与视频体验

Midjourney 在探索页面新增了‘为您推荐’按钮,基于用户历史交互数据和偏好学习算法,提供个性化AI生成的图片和视频推荐。这一功能极大提升了用户的创作效率和个性化体验。

image.png

【AiBase提要:】

✨ 用户点击‘为您推荐’按钮即可获取符合自身风格的创意内容。

🔍 系统通过分析用户的历史操作(如点赞、moodboard上传)捕捉风格偏好。

🎨 推荐结果支持参数调整,优化输出效果。

6、GPT-5发布越来越近!GPT-5-Auto 与 GPT-5-Reasoning 现身 Mac 客户端

文章揭示了OpenAI可能正在测试GPT-5的两个新模型,GPT-5-Auto和GPT-5-Reasoning,这些发现暗示其下一代AI模型已进入内部测试阶段,预计2025年夏季正式发布。

image.png

【AiBase提要:】

🤖 GPT-5-Reasoning专注于复杂任务的逻辑拆解与多步推理,表现出色。

🔄 GPT-5-Auto具备高度自动化能力,可执行多步骤任务,减少用户干预。

📅 OpenAI计划在2025年夏季正式发布GPT-5,加速开发进程。

7、Ollama发布桌面客户端!拖拽文档、多模态识别,本地AI从此告别命令行

Ollama推出了桌面客户端,为用户提供了更直观的交互体验。该客户端支持多模态识别和文档拖拽功能,同时保持了本地运行的优势,提升了隐私保护和效率。

image.png

【AiBase提要:】

📱 图形化界面简化操作,降低使用门槛。

🖼️ 多模态识别支持图像与文本交互,提升应用多样性。

🔒 本地运行保障数据隐私,满足合规要求。

详情链接:https://ollama.com/download

8、OWL团队开源全新多智能体工具Eigent:革新复杂任务处理效率

OWL团队推出了全新的多智能体协作工具Eigent,旨在通过多智能体协作提升复杂任务的处理效率。该工具继承了CAMEL和OWL的成功经验,并引入了高效的并行处理机制、灵活的定制能力以及Human-in-the-Loop机制,为AI开源生态带来了重大突破。

image.png

【AiBase提要:】

🧠 **高效任务拆解与并行处理**:Eigent通过多层次并行机制显著提升任务处理效率。

🛠️ **灵活定制与工具整合**:支持动态创建Workforce,整合多种数据源和工具,提高适用性。

🤝 **Human-in-the-Loop机制**:允许用户在关键节点进行人工干预,确保任务精度和主观判断。

详情链接:https://github.com/eigent-ai/eigent

9、OpenAI 今年收入激增至 120 亿美元 周活跃用户破 7 亿大关

OpenAI 在2023年取得了显著的商业成就,前七个月收入达到120亿美元,预计月收入将达到10亿美元。周活跃用户数突破7亿,显示出其产品的广泛市场认可。公司目标到2029年实现年收入1250亿美元。

【AiBase提要:】

🌟 OpenAI 今年前七个月收入达120亿美元,月收入预计10亿美元。

📈 周活跃用户突破7亿,ChatGPT 受到全球用户欢迎。

🚀 OpenAI 目标到2029年年收入增至1250亿美元,展现雄心壮志。

10、英伟达H20算力芯片被约谈:国信办要求说明“追踪定位”及“远程关闭”风险

国家互联网信息办公室就英伟达H20算力芯片的安全风险,特别是‘追踪定位’和‘远程关闭’技术,对英伟达公司进行了约谈。网信办要求英伟达详细说明其对华销售的H20芯片的漏洞后门安全风险问题,并提交相关证明材料。

【AiBase提要:】

📌 国家互联网信息办公室约谈英伟达,关注其H20芯片的‘追踪定位’和‘远程关闭’技术风险。

💡 英伟达的算力芯片存在严重安全漏洞,且相关技术已成熟。

🔍 网信办依据《网络安全法》等法规,要求英伟达提供详细说明和证明材料。

11、万兴科技惊艳登榜!天幕2.0模型成国内第四,携手华为云共建AI视频实验室

万兴科技凭借天幕2.0模型的出色表现,在AI视频生成领域取得显著进展,并与华为云展开深度合作,共同探索AI技术的应用潜力。

image.png

【AiBase提要:】

🎥 万兴天幕2.0模型在SuperCLUE榜单中位列国内第四,展现了其强大的技术实力。

🤝 与华为云共建AI视频大模型实验室,推动行业技术革新。

🚀 未来合作有望拓展至更多领域,提升用户数字创意体验。

举报

  • 相关推荐
  • 市值一日暴增近3000亿港元,阿里迈向超级人工智能之路

    9月24日,阿里巴巴股价创下四年新高,单日涨超9%,市值达到约3.32万亿港元,一日增加近3000亿港元。 引爆股价的,是阿里集团每年一度的云栖大会。在会上,阿里释放多条重磅消息,尤其是在阿里集团CEO、阿里云智能集团董事长兼CEO吴泳铭的演讲结束后,阿里的股价表现就出现了明显的拉升。

  • 每日互动参与发起《人工智能安全行业自律倡议》 守护人工智能产业可持续发展

    9月17日,2025年国家网络安全宣传周人工智能安全治理分论坛在昆明召开,会上正式发布《人工智能安全行业自律倡议》。该倡议由中国网络空间安全协会联合多家科研院所、互联网头部企业、网络安全厂商及人工智能企业共同发起,提出筑牢安全根基、强化技管结合、深化协同共治等七方面共识,旨在推动构建可控、可信、可靠的人工智能产业生态,为全球人工智能治理贡献中国智慧。

  • 十方融海:以开源生态为基,绘就“人工智能 +”产业融合新蓝图

    国务院印发《关于深入实施“人工智能+”行动的意见》,推动AI技术与产业深度融合。深圳企业十方融海凭借AI大模型研发、产品创新及开源生态构建等领域的卓越实践,成为行业先锋。其开源模型如OpenBuddy、小智AI等突破传统技术局限,实现多模态交互与跨领域知识融合,覆盖教育、办公、养老、文体等多元场景。通过开放共享模式,十方融海有效降低AI应用门槛,激发行业创新活力,助力我国人工智能产业迈向新征程。

  • 马斯克:Grok 5模型有望实现通用人工智能的突破

    马斯克旗下xAI公司正研发Grok 5模型,有望实现通用人工智能(AGI)重大突破。该模型采用全新架构设计,预计未来几周启动训练。若成功将代表AI从专用领域向通用认知能力的质的飞跃,被视为人工智能发展的终极目标。科技界密切关注xAI能否在激烈竞争的大模型赛道实现突破。

  • 普适性覆盖人工智能典型场景 寒武纪产品技术优势凸显

    中科寒武纪科技预计2025年全年实现营业收入50亿至70亿元。公司已全面掌握智能芯片及基础系统软件研发核心技术,截至2025年6月30日,累计获授权专利1599项。2025年上半年,公司实现营业收入28.81亿元,同比增长4347.82%,净利润扭亏为盈。寒武纪持续优化智能处理器微架构及指令集,新一代产品将提升编程灵活性、易用性、性能及能效。高盛维持对公司的积极看法,上调12个月目标价至2104元,并调高2030年预期EBITDA及企业价值倍数。

  • 祝贺!诺云荣登“人工智能+”新质生产力领航企业百强!

    2025年9月8日,国务院发布人工智能发展指导意见后,诺云凭借AI营销创新实践入选“人工智能+新质生产力百强榜单”,成为河南唯一入选企业。作为数字化营销技术服务商,诺云提供企业直播SaaS系统与私域运营工具,覆盖电商直播、企业培训等全场景需求。已服务超20万家企业,覆盖3亿用户,拓展至零售、教育等150多个行业,客户包括携程、华为等头部机构。诺云将持续深化AI技术应用,激发新质生产力潜能。

  • 王忠林赴格创东智调研人工智能产业高质量发展情况

    9月11日,湖北省领导王忠林一行调研格创东智人工智能产业发展。公司CEO何军汇报了自主研发的工业智能平台、能碳管理系统等应用成果。王忠林强调要深化人工智能在工业研发、生产等领域的应用,促进全要素智能联动,更好服务制造业向智能制造转型升级。

  • 华为全联接大会2025首发《算力珠玑》十大实战案例助力开发者攻克鲲鹏、昇腾开发难关

    《算力珠玑:鲲鹏昇腾应用开发案例详解》由上海交通大学林新华教授等主编,聚焦鲲鹏与昇腾两大自主计算生态的应用迁移与优化难题。全书通过十个真实场景案例,系统解析从传统平台迁移至自主算力平台的代码移植、性能调优及算子开发等关键技术,涵盖高能计算、AI训练、工业诊断等领域。书中结合理论与实践,提供具体代码与优化策略,旨在帮助开发者降低迁移成本、提升效率,推动自主算力技术在实际场景中“用好用活”,为我国在全球算力竞争中夯实基础。

  • HC2025丨高校创新力量“花开”开发者日,鲲鹏昇腾使能科研创新

    2025年9月18日至20日,华为全联接大会在上海成功举办。开发者日集中展示了一批基于鲲鹏、昇腾基础软硬件平台的前瞻性创新成果,覆盖AI编程语言、大模型训练加速、多模态模型及科学计算仿真等领域。重点成果包括:北京大学团队研发的DeepFlame燃烧流体仿真工具实现火箭发动机超临界燃烧模拟千倍加速;清华大学团队开源AI量子编程语言TileLang显著提升开发效率;东南大学提出多模态大模型优化方法;魔芯科技构建首个基于昇腾的3D空间智能大模型;趋境科技KTransformers引擎通过异

  • “无人测试”新趋势:2025服贸会公布领先AI测试平台——Testin XAgent

    在数字化浪潮下,软件质量成为企业核心竞争力。传统测试依赖人工,面临效率瓶颈、覆盖局限和技术门槛三大痛点。AI技术正推动测试从自动化向智能化变革。Testin云测发布新一代AI智能测试系统Testin+XAgent,融合大语言模型和智能体技术,实现自然语言驱动测试、高精度视觉识别、全自动API测试和自主探索式测试,重塑测试流程。该系统代表软件测试向“无人测试”升级,助力中国技术出海,彰显AI+测试的全球竞争力。

今日大家都在搜的词: