首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:阿里推开放世界模型Happy Oyster;Claude Opus 4.7即将发布;腾讯开源混元3D 世界模型2.0

2026-04-16 16:17 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://app.aibase.com/zh

1、阿里巴巴 ATH 推出开放世界模型 Happy Oyster,开启实时交互体验申请

阿里巴巴 ATH 团队推出了全新的开放世界模型 Happy Oyster,该模型具备实时交互和创建能力,进一步拓展了其在生成式 AI 领域的技术布局。同时,其旗下的 HappyHorse-1.0 模型在 Video Edit 方向排行榜中取得全球第一的成绩,展现了强大的多模态视觉处理能力。Happy Oyster 的发布反映了行业向动态可交互环境发展的趋势,并为游戏开发、虚拟仿真及创意设计提供了更高维度的生产力工具。

QQ20260416-135915.jpg

【AiBase提要:】

🧠 阿里巴巴 ATH 团队推出全新开放世界模型 Happy Oyster,支持实时交互与创建能力。

📊 在最新 Video Edit 方向排行榜中,HappyHorse-1.0 模型以 1299 分位列全球榜首,展现深厚技术实力。

🚀 Happy Oyster 的发布标志着生成式 AI 技术从静态内容生成向动态可交互环境的进化趋势。

详情链接:https://www.happyoyster.cn/

2、Anthropic即将发布Claude Opus 4.7及全新AI设计工具

Anthropic 即将发布 Claude Opus 4.7 和全新 AI 设计工具,引发市场关注。

image.png

【AiBase提要:】

🧠 Claude Opus 4.7 是对 4.6 的增量升级,带来编码能力增强和上下文窗口扩展。

🎨 Anthropic 正准备发布一款 AI 驱动的设计工具,直接与 Gamma、Google Stitch 等竞争。

💰 Anthropic 的估值已达到 8000 亿美元,年化营收从 90 亿美元攀升至 300 亿美元。

3、腾讯开源混元3D 世界模型2.0,支持一键生成可编辑3D 空间资产

腾讯混元团队正式发布并开源了“混元3D世界模型2.0”,该版本在多模态世界模型上实现了重大升级,能够生成可交互、可编辑的3D资产,并支持多种格式导出及与主流游戏引擎对接。其技术架构统一了空间理解、生成与重建流程,核心升级包括HY-Pano-2.0模型、自研空间Agent技术和WorldStereo机制,显著降低了游戏关卡原型与具身智能仿真环境的构建门槛。

image.png

【AiBase提要:】

🧠 HY-World2.0实现了从生成视频到生成可交互、可编辑3D资产的跨越。

🚀 支持多种格式导出,并与主流游戏引擎无缝对接。

🌐 通过SOTA级空间一致性记忆机制,将AI驱动的3D内容创作推向实用化阶段。

4、谷歌发布最强TTS模型,支持近 70 种语言

谷歌推出的Gemini-TTS模型在文本转语音领域实现了重大突破,通过提示词直接调控语音的情感、节奏和风格,使语音更加自然细腻。同时,该模型支持约70种语言,并能自动识别语种,为多语言内容的语音化提供了高效解决方案。

image.png

【AiBase提要:】

✨ Gemini-TTS支持通过提示词精确控制语音情感、节奏和风格。

🌍 支持约70种语言,自动识别语种,无需手动标注。

🚀 与同系列音频模型协同,提升实时对话和多模态交互体验。

5、蚂蚁灵波科技开源 LingBot-Map:支持单摄像头实时流式三维重建

蚂蚁灵波科技开源了流式三维重建模型LingBot-Map,该模型仅需单个普通RGB摄像头即可在视频采集过程中实时估计相机位姿并重建场景三维结构,为机器人导航、自动驾驶及AR硬件等提供了高效、稳定且连续的在线建图能力。

image.png

【AiBase提要:】

📱 支持单个普通RGB摄像头实时估计相机位姿并重建场景三维结构。

🚀 采用流式处理架构,实现边接收画面边输出定位与结构的实时交互。

🌐 开源模型降低高精度三维感知的硬件门槛,加速具身智能设备发展。

详情链接:https://huggingface.co/robbyant/lingbot-map ModelScope:https://www.modelscope.cn/models/Robbyant/lingbot-map

6、芒果TV会员破 7560 万,自研大模型上岗 30 多档节目,湖南广电AI转型成绩单来了

湖南广播电视台在第十三届中国网络视听大会上展示了其亮眼的成绩单,包括芒果TV有效会员数量突破7560万,以及自研芒果大模型在30多档节目中的实际应用,显著提升了生产效率。

【AiBase提要:】

🍊 芒果TV有效会员数量突破7560万,显示其在流媒体市场的竞争力。

🤖 湖南广电自研的芒果大模型已孵化出80余款智能体,并应用于30多档节目,提升生产效率30%以上。

💡 芒果TV的AI转型已具备可复制性,展示了传统广电机构在技术应用上的成功尝试。

7、超 20 万台AI服务器暴露在攻击风险下,MCP被曝存在严重设计缺陷

一份安全报告揭示了Anthropic的MCP协议存在严重设计缺陷,可能让超过20万台AI服务器面临远程代码执行的风险。该漏洞源于MCP SDK的STDIO接口,允许运行任何传入的操作系统命令,且无校验和警告。尽管OX Security已向Anthropic通报,但其仅更新了安全文档,未对架构进行修改,引发开发者关注。

【AiBase提要:】

🧠 MCP架构设计缺陷可能导致远程代码执行,影响超过20万台AI服务器。

🛡️ 漏洞涉及Anthropic的MCP协议,覆盖11种编程语言,风险广泛。

⚠️ Anthropic未进行架构修改,仅更新安全文档,引发开发者担忧。

8、OpenAI 发布更新版 Agents SDK 助力企业构建更安全的智能代理

OpenAI 对其 Agents SDK 进行了重磅更新,旨在帮助企业更安全、更高效地构建智能代理。这一更新引入了沙箱功能,允许智能代理在一个受控的计算环境中运行,从而有效保护系统的整体安全性。此外,新版 SDK 为开发者提供了一个内置框架,支持在工作区中使用文件和已批准的工具,提升开发灵活性。OpenAI 表示,新的 Agents SDK 功能将通过 API 向所有客户开放,并采用标准定价。目前,新的框架和沙箱功能将首先推出 Python 版本,TypeScript 支持将在后续版本中推出,未来还计划引入更多 Agent 功能。

image.png

【AiBase提要:】

🛡️ OpenAI 更新 Agents SDK,引入沙箱功能,提高智能代理的安全性。

🔧 新版 SDK 提供内置框架,支持使用文件和已批准的工具,提升开发灵活性。

📈 API 将向所有客户开放,Python 和 TypeScript 版本将陆续推出。

举报

  • 相关推荐
  • 格创东智亮相深圳国际人工智能展览会:“章鱼智脑”+智能体集群,解锁工业智造新路径

    5月14日,2026全球人工智能终端展暨第七届深圳国际人工智能展以“端启未来·万物新生”为主题开幕,汇聚TCL、荣耀等超400家展商。TCL展示AI创新产品矩阵,格创东智则凭“章鱼大脑”智能决策中枢及智能体集群成为焦点,其以“打造AI自主决策的超级工厂”为核心,通过章鱼大脑、品质管理等四大板块,呈现工业智能决策实践路径。章鱼大脑采用“决策+执行Agent”架构,实现数据闭环,已落地多家半导体工厂,达成分钟级异常处置、良率实时监控等成效。未来,格创东智将持续迭代,推动从AI辅助向自主决策转型,助力中国智造高质量发展。

  • 北京国际人力获评世界品牌莫干山大会“人工智能+”生态创新实践范本

    5月9日,第十个中国品牌日之际,2026世界品牌莫干山大会“搜索·点赞·传播品牌好故事论坛”在浙江德清举办,发布“人工智能+”生态创新实践范本。北京国际人力旗下万维招聘AI智能招聘平台获评“人工智能+”创新产品。论坛聚焦品牌强国建设,北京国际人力以47年行业积淀,推出全流程智能招聘平台,针对传统招聘痛点,运用大模型等技术构建PC端、微信小程序、线下求职一体机三位一体服务矩阵,赋能企业招聘管理与求职者职业成长,彰显国企担当,助力“中国服务”品牌高质量发展。

  • 得一微担任世界人工智能眼镜联盟(WAEA)董事会员,共推AI眼镜存力新前景

    近日,“2026AI眼镜产业生态大会”在深圳举行,汇聚全球顶尖企业与专家,探讨产业创新趋势。得壹微电子(YEESTOR)作为国内领先AI存力芯片设计企业受邀出席,被授予“世界人工智能眼镜联盟(WAEA)董事会成员单位”。大会指出,AI眼镜正从极客玩具迈向大众消费品,预计2026年全球出货量将突破2368万台。得壹微电子深耕存力主控芯片,为AI眼镜提供从端到云的全栈存力支持,推动端侧AI与智能穿戴生态规模化商用。

  • OpenAI成立OpenAI部署公司:帮助企业构建人工智能系统

    OpenAI正式成立OpenAI 部署公司”,在帮助企业构建人工智能系统。 同时,OpenAI已同意收购Tomoro一家专注于将AI转化为运营优势的应用 AI 咨询与工程公司。 新成立的部署公司由OpenAI控股,无论客户是与OpenAI、OpenAI部署公司,还是与两者同时合作,都将获得统一的服务体验。

  • 多模态训练提速45% 百度智能云推出开源全模态训练框架

    多模态大模型时代,训练基础设施正面临结构性错位。传统框架基于“数据同质、结构单一、平台固定”设计,难以应对多模态异构数据、模型组件协同及跨平台算力需求。百度百舸开源的全模态训练框架LoongForge,以Megatron为核心引擎,通过统一模型抽象、系统层优化和硬件插件化设计,实现“一套代码多平台运行”。其CCT通算传并行、ChunkPipe流水线并行、自适应FP8等技术,在主流模型上实现15%-45%端到端训练加速,在DeepSeek等前沿架构上实现倍级性能提升,并在5000+卡昆仑P800集群上达到90%+线性扩展效率。

  • 《王者荣耀世界》正式开启公测,开放世界会是“避风港”吗?

    腾讯、网易、完美世界、字节等头部厂商相继入局这场注定持久的战役,立项、测试、演示预热不断。二次元与开放世界,从垂直品类迅速膨胀为“兵家必争之地”。二次元、国风、硬核动作,这些词汇在开放世界的模具里被反复揉捏,直到玩家开始产生审美疲劳。

  • 小米自动驾驶模型Xiaomi OneVL开源:业内率先统一VLA、世界模型路线

    今日,小米正式发布并开源Xiaomi OneVL自动驾驶模型。 该模型在业内率先实现VLA、世界模型、潜空间推理等多个技术路线的统一,在具备XLA模型强悍推理能力的基础上,大幅提升了推理的速度和精度,是行业内具备开创性的方案。 其在精度上超越显式CoT、在速度上对齐仅答案”预测的潜空间CoT方案。过去,VLA和世界模型是自动驾驶领域两条相对独立的技术路线:VLA专注于理解�

  • 模型即审美:生图模型们正建起自己的“视觉方言”

    ​最近在测试各种AI生图模型的时候,我们发现了一个现象:同样一个提示词,丢给不同的模型,出来的图片风格差异大到像是出自不同摄影流派。 Image-2生成的图就像我昨天随手拍的,但Nano Banana生成的图感觉像某个家居品牌的广告大片。有些模型执着于捕捉现实的每一丝瑕疵,有些则痴迷于把日常场景变成精致的艺术品。这背后反映的不是能力差别,而是每个模型对"什么

  • 满血版DeepSeek V4要来了:补上缺失的多模态关键一环

    DeepSeek V4刚发布还不到5天,光是降价就来了三轮,然而他们的后续动作还很多,马上就要推出满血DeepSeek V4,补上多模态支持。 DeepSeek负责多模态开发的研究员陈小康(xiaokang_chen)今天下午在X上预告新版DeepSeek V4,不出意外就是多模态版的DeepSeek V4了。 此前发布的DeepSeek V4不论Flash还是Pro,都还是纯文本大模型,未免有些遗憾,不是说纯文本没有用,而是多模态支持能力是当�

  • 《异环》抢滩登陆,二游都市开放世界新一轮长线战役打响

    ​万众期待的《异环》终于上线了。 引发关注的原因有很多:对产品,前三次测试次次不一样,玩家好奇公测还能有哪些变化;对团队和公司,承载完美世界二次元赛道新一轮探索的重任,外界关心Hotta Studio在《幻塔》的基础上成长了多少;对行业,作为首个上线的都市开放世界、包含第一人称模式的二游,从业者关注新一轮开放世界二游大战拉开序幕能不能给停止增长的赛道带

今日大家都在搜的词: