首页 > 原创 > 关键词  > AI最新资讯  > 正文

AI日报:蚂蚁开源高性能思考模型Ring-flash-2.0;通义7款模型屠榜Hugging Face;Veo3视觉能力升级

2025-09-29 16:27 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://app.aibase.com/zh

1、蚂蚁百灵团队全新开源高性能思考模型 Ring-flash-2.0

蚂蚁百灵团队开源了高性能思考模型 Ring-flash-2.0,该模型在多个高难度基准测试中表现出色,具有强大的计算能力和资源效率。其创新的两阶段强化学习训练流程提升了模型的推理能力,并且所有模型权重和训练方案都将完全开源。

image.png

【AiBase提要:】

🧠 Ring-flash-2.0 是基于 Ling-flash-2.0-base 的高性能思考模型,参数总量为100亿,但每次推理仅激活6.1亿。

🚀 在数学竞赛、代码生成和逻辑推理等任务中,Ring-flash-2.0 的性能超越了同类40亿参数模型,甚至可与更大规模的开源稀疏模型媲美。

🔧 团队设计了创新的两阶段强化学习训练流程,包括 Long-CoT SFT、RLVR 和 RLHF,以提升模型的推理和通用能力。

详情链接:https://huggingface.co/inclusionAI/Ring-flash-2.0 https://modelscope.cn/models/inclusionAI/Ring-flash-2.0

2、阿里通义7款模型屠榜Hugging Face!全模态大模型Qwen3-Omni登顶全球第一

阿里通义7款模型在Hugging Face全球开源模型榜单中表现卓越,其中Qwen3-Omni作为全模态大模型,凭借强大的音视频处理能力和稳定的文本与图像性能,成功登顶全球第一

【AiBase提要:】

🧠 Qwen3-Omni是阿里最新开源的全模态大模型,可处理文本、图片、语音和视频四种数据类型。

🎧 Qwen3-Omni在音视频能力上取得32项开源最佳性能SOTA,同时保持文本与图像性能稳定。

🚀 阿里通义7款模型包揽Hugging Face全球前十开源模型榜单,Qwen3-Omni登顶全球第一

3、不只是生成视频:谷歌 Veo3视觉能力升级,可自动玩数独、解迷宫

谷歌研究部门最新披露,其视频生成模型 Veo3 在视觉AI领域取得了突破性进展,被誉为达到了‘GPT-3’时刻。Veo3不仅限于视频生成,还能在无需额外训练的情况下,自动完成多项复杂的视觉任务,包括寻找物体、修复照片、玩迷宫、解决数独等,标志着视觉AI进入新的发展阶段。

image.png

【AiBase提要:】

🧠 理解图像:自动识别图像中的边缘、轮廓、物体位置、颜色和形状等基本视觉元素。

🧪 理解物理原理:具备基本的物理认知,例如能够分辨出哪些物体会漂浮,哪些会下沉,并理解光的反射方式。

🎨 进行手动编辑:像“自动版 Photoshop”一样,Veo3可以执行复杂的图片编辑任务,如去除背景、添加文字,甚至将照片转换为油画风格。

4、特斯拉全力推进“擎天柱”规模化生产,马斯克称其将成公司最重要产品

特斯拉正在全力推进其人形机器人“擎天柱”的规模化生产,并将其视为公司最重要的产品。尽管在研发过程中面临一些技术挑战,如手部设计问题,但特斯拉仍致力于克服这些障碍以实现量产目标。

马斯克、特斯拉机器人

【AiBase提要:】

🤖 特斯拉正全力推进‘擎天柱’的规模化生产。

💡 马斯克认为‘擎天柱’将成为特斯拉最重要的产品。

🔧 机器人手部设计是当前研发中的主要技术挑战之一。

5、马斯克再发怒!第六次起诉 OpenAI,指控窃取商业机密

马斯克再次起诉 OpenAI,指控其窃取商业机密并挖角核心员工,双方竞争加剧,可能影响 AI 行业未来走向。

【AiBase提要:】

🧠 OpenAI 被指控系统性挖角 xAI 核心员工并窃取商业机密。

🔒 诉状指出 OpenAI 诱导员工违反保密协议,获取源代码和数据中心战略计划。

⚖️ 马斯克称 OpenAI 的行为威胁 xAI 的创新与未来发展。

6、苹果悄然测试 “聊天机器人”,但暂不向公众开放!

苹果正在内部测试代号为 'Veritas' 的聊天机器人应用,用于验证新一代 Siri 技术。尽管苹果在 AI 领域已有布局,但其策略并未获得预期反响,用户对 Siri 的表现不满。苹果组建了新团队 AKI,专注于开发 AI 驱动的网页搜索工具,同时计划推出结合外部模型和自研技术的新 Siri(Project Linwood)。然而,苹果尚未计划将 Veritas 推向消费者市场。

【AiBase提要:】

🍎 苹果正在测试名为 'Veritas' 的聊天机器人应用,用于验证新一代 Siri 技术。

🤖 苹果组建了 'AKI' 团队,专注于开发 AI 驱动的网页搜索工具,以接近 ChatGPT 等竞争对手。

📈 新一代 Siri(Project Linwood)预计明年3月亮相,将结合外部模型和自研技术。

7、YouTube 音乐推出 AI 主播,打破音乐聆听的沉默

YouTube 音乐推出了名为 'Beyond the Beat' 的 AI 主播,旨在提升用户的聆听体验。该功能在播放音乐时插入相关的故事、趣闻和评论,增加互动性。尽管存在生成不准确信息的风险,但其潜力仍值得期待。

【AiBase提要:】

🎧 YouTube 音乐推出 AI 主播 'Beyond the Beat',提升用户聆听体验。

🗣️ AI 主播在播放音乐时插入故事、趣闻和评论,增强互动性。

⚠️ 该技术可能生成不准确信息,但仍有潜力带来惊喜体验。

8、LiquidAI 推出 Liquid Nanos 系列轻量级 AI 模型,优化边缘设备应用

LiquidAI 发布了专为边缘计算设备设计的轻量级 AI 模型 'Liquid Nanos',支持多种应用场景,如翻译、抽取、RAG、工具调用和数学推理。该系列提供350M 和1.2B 两种参数版本,并支持 GGUF 量化格式,优化性能与资源利用。首批12款任务专用模型已在 Hugging Face 上线,为开发者提供了丰富的工具选择。

image.png

【AiBase提要:】

🌟 LiquidAI 推出了专为边缘设备设计的轻量级 AI 模型 'Liquid Nanos'。

📊 提供350M 和1.2B 两种参数版本,支持 GGUF 量化格式以优化性能。

🚀 首批12款任务专用模型已在 Hugging Face 上线,涵盖多种应用场景。

详情链接:https://huggingface.co/collections/LiquidAI/liquid-nanos-68b98d898414dd94d4d5f99a

举报

  • 相关推荐
  • AI日报:美团LongCat-Flash-Omni发布;Qwen3-Max上线深度思考功能;百度“文心”5.0重磅回归

    本期AI日报聚焦多领域技术突破:美团发布全模态交互模型LongCat-Flash-Omni;阿里通义千问Qwen3-Max上线深度思考功能;百度文心5.0升级多模态生成能力;谷歌确认Gemini3年内发布并整合至苹果Siri;OpenAI向多国开放Sora2视频工具;云存储与AI开发工具持续优化,展现行业加速迭代态势。

  • AI日报:月之暗面开源AI新框架Kosong;百度发布新模型ERNIE-4.5-VL;GPT-5.1“隐身”登场

    本期AI日报聚焦多项技术突破:月之暗面开源AI代理框架Kosong,支持异步编排与插件化设计;Replit推出AI集成功能,可一键调用300+模型;商汤发布空间智能模型SenseNova-SI,性能超越GPT-5;百度推出多模态模型ERNIE-4.5-VL,新增图像思考能力;谷歌地图全面AI化,集成Gemini实现智能交互;ChatTutor上线可视化教学系统,覆盖多学科实时推演;新版Google Finance引入AI深度搜索与财报追踪;OpenAI低调上线Polaris Alpha模型,支持256K上下文并更新知识库至2024年10月。

  • AI日报:昆仑万维SkyReels V3模型上线;月之暗面推Kimi Linear模型;MiniMax Music 2.0 发布

    本期AI日报聚焦多领域创新:昆仑万维推出SkyReels V3模型,整合顶尖视频生成能力;月之暗面Kimi Linear模型处理长文本速度提升2.9倍;MiniMax Music 2.0实现专业级音乐创作;字节跳动启动豆包股权激励计划吸引AI人才;苹果iOS 27将迎AI重大升级,Siri更个性化;Dia浏览器融合Arc设计理念与AI技术;文心魔法漫画工具实现一键生成连载作品;谷歌Gemini Canvas新增PPT自动生成功能,由Gemini 2.5 Pro驱动,提升职场效率。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • 何小鹏首次披露物理AI巨大进展 发布第二代VLA大模型

    小鹏汽车在2025科技日发布第二代VLA大模型,颠覆传统“视觉-语言-动作”架构,实现端到端直接输出动作指令,开创物理模型新范式。该模型具备动作生成与物理世界理解能力,参数规模达数十亿级,训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载,推动智驾技术显著进化,同步发布“小径NGP”功能,复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示,大模型将成为物理AI世界的操作系统,并宣布与大众汽车达成战略合作,共同推进智能出行发展。

  • 战略卡位AI搜索:头部品牌为何集体转向光引GEO的2.0体系?

    2025年营销预算正向GEO迁移,企业从追求流量转向构建“心智垄断”。光引GEO通过“五会”能力实现科学营销闭环,提供三大战略价值:建立AI原生品牌权威、实时市场洞察系统、扭转舆论的防火墙。头部品牌的集体转向表明,布局GEO已成为抢占下一代AI原生消费场景的关键战略卡位。

  • AI日报:Lovart AI上线“元素拆分”功能;Xcode 26.1.1发布;阿里云通义模型首次大规模赋能双11

    本期AI日报涵盖八大热点:Lovart AI推出"元素拆分"功能,实现海报智能分层编辑;苹果Xcode 26.1.1优化AI编码性能;阿里云通义模型双11单日翻译调用量突破14亿次;Gemini 3在历史手稿破译中展现专家级能力;德国法院裁定OpenAI使用歌词训练构成侵权;开源语音模型Maya1实现富有表现力的实时文本转语音;Meta首席AI科学家LeCun计划离职创办世界模型公司;AI专家罗福莉加入小米,将致力于构建物理世界智能。

  • AI日报:广电整治AI动画乱象;360发布大模型安全白皮书;百度推出小度AI眼镜Pro

    国家广电总局宣布自2026年3月起全面整治AI生成内容,要求AIGC作品纳入分类分层审核体系。360发布《大模型安全白皮书》,提出全链路AI安全防线应对新型威胁。百度推出2299元小度AI眼镜Pro,集成智能翻译等多项功能。StepFun开源音频编辑模型Step-Audio-EditX,实现文本化语音编辑。Grok新增纯文本生成视频功能,17秒可生成带特效视频片段。研究发现谷歌Veo-3模型能生成逼真手术视频但缺乏医学逻辑。阿里Qwen3-Max-Thinking在全球数学竞赛夺冠,并在加密货币交易中取得显著回报。OpenAI推出轻量化GPT-5 Codex Mini模型,优化开发者体验。

  • 高效触达每一步 三星Galaxy S25系列让AI更懂你

    三星Galaxy S25系列通过深度整合Galaxy AI,重新定义智能手机体验。AI助手Bixby具备多模态交互能力,可理解自然语言指令、调用多应用协同完成导航等复杂任务,并支持图片解析生成摘要。实时简报整合天气、日程等关键信息,AI多截图实现智能翻译与GIF制作。影像创作方面,生成式编辑工具可一键优化构图,音频橡皮擦智能降噪,智绘人像生成艺术风格头像。AI赋能的智能拖放打破应用边界,实现跨应用信息流转。该系列以全场景AI体验提升生活效率与创作自由度。

  • 颠覆Diffusion局限!Utopai双模型耦合架构,攻克AI影视长叙事核心难题

    Utopai Studios推出专为影视制作设计的AI模型与工作流,区别于主流视频生成模型,其核心能力在于理解剧本、规划镜头及生成场景,通过自回归模型负责叙事规划与一致性约束,扩散模型专注高质量画面渲染。该系统能解决跨镜头元素漂移难题,提升制作效率与作品品质。目前工作流仅用于公司自有项目,强调AI作为创作者协作者的角色,并遵循行业道德与版权规范。

今日大家都在搜的词: