首页 > 原创 > 关键词  > AI最新资讯  > 正文

AI日报:蚂蚁开源高性能思考模型Ring-flash-2.0;通义7款模型屠榜Hugging Face;Veo3视觉能力升级

2025-09-29 16:27 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://app.aibase.com/zh

1、蚂蚁百灵团队全新开源高性能思考模型 Ring-flash-2.0

蚂蚁百灵团队开源了高性能思考模型 Ring-flash-2.0,该模型在多个高难度基准测试中表现出色,具有强大的计算能力和资源效率。其创新的两阶段强化学习训练流程提升了模型的推理能力,并且所有模型权重和训练方案都将完全开源。

image.png

【AiBase提要:】

🧠 Ring-flash-2.0 是基于 Ling-flash-2.0-base 的高性能思考模型,参数总量为100亿,但每次推理仅激活6.1亿。

🚀 在数学竞赛、代码生成和逻辑推理等任务中,Ring-flash-2.0 的性能超越了同类40亿参数模型,甚至可与更大规模的开源稀疏模型媲美。

🔧 团队设计了创新的两阶段强化学习训练流程,包括 Long-CoT SFT、RLVR 和 RLHF,以提升模型的推理和通用能力。

详情链接:https://huggingface.co/inclusionAI/Ring-flash-2.0 https://modelscope.cn/models/inclusionAI/Ring-flash-2.0

2、阿里通义7款模型屠榜Hugging Face!全模态大模型Qwen3-Omni登顶全球第一

阿里通义7款模型在Hugging Face全球开源模型榜单中表现卓越,其中Qwen3-Omni作为全模态大模型,凭借强大的音视频处理能力和稳定的文本与图像性能,成功登顶全球第一

【AiBase提要:】

🧠 Qwen3-Omni是阿里最新开源的全模态大模型,可处理文本、图片、语音和视频四种数据类型。

🎧 Qwen3-Omni在音视频能力上取得32项开源最佳性能SOTA,同时保持文本与图像性能稳定。

🚀 阿里通义7款模型包揽Hugging Face全球前十开源模型榜单,Qwen3-Omni登顶全球第一

3、不只是生成视频:谷歌 Veo3视觉能力升级,可自动玩数独、解迷宫

谷歌研究部门最新披露,其视频生成模型 Veo3 在视觉AI领域取得了突破性进展,被誉为达到了‘GPT-3’时刻。Veo3不仅限于视频生成,还能在无需额外训练的情况下,自动完成多项复杂的视觉任务,包括寻找物体、修复照片、玩迷宫、解决数独等,标志着视觉AI进入新的发展阶段。

image.png

【AiBase提要:】

🧠 理解图像:自动识别图像中的边缘、轮廓、物体位置、颜色和形状等基本视觉元素。

🧪 理解物理原理:具备基本的物理认知,例如能够分辨出哪些物体会漂浮,哪些会下沉,并理解光的反射方式。

🎨 进行手动编辑:像“自动版 Photoshop”一样,Veo3可以执行复杂的图片编辑任务,如去除背景、添加文字,甚至将照片转换为油画风格。

4、特斯拉全力推进“擎天柱”规模化生产,马斯克称其将成公司最重要产品

特斯拉正在全力推进其人形机器人“擎天柱”的规模化生产,并将其视为公司最重要的产品。尽管在研发过程中面临一些技术挑战,如手部设计问题,但特斯拉仍致力于克服这些障碍以实现量产目标。

马斯克、特斯拉机器人

【AiBase提要:】

🤖 特斯拉正全力推进‘擎天柱’的规模化生产。

💡 马斯克认为‘擎天柱’将成为特斯拉最重要的产品。

🔧 机器人手部设计是当前研发中的主要技术挑战之一。

5、马斯克再发怒!第六次起诉 OpenAI,指控窃取商业机密

马斯克再次起诉 OpenAI,指控其窃取商业机密并挖角核心员工,双方竞争加剧,可能影响 AI 行业未来走向。

【AiBase提要:】

🧠 OpenAI 被指控系统性挖角 xAI 核心员工并窃取商业机密。

🔒 诉状指出 OpenAI 诱导员工违反保密协议,获取源代码和数据中心战略计划。

⚖️ 马斯克称 OpenAI 的行为威胁 xAI 的创新与未来发展。

6、苹果悄然测试 “聊天机器人”,但暂不向公众开放!

苹果正在内部测试代号为 'Veritas' 的聊天机器人应用,用于验证新一代 Siri 技术。尽管苹果在 AI 领域已有布局,但其策略并未获得预期反响,用户对 Siri 的表现不满。苹果组建了新团队 AKI,专注于开发 AI 驱动的网页搜索工具,同时计划推出结合外部模型和自研技术的新 Siri(Project Linwood)。然而,苹果尚未计划将 Veritas 推向消费者市场。

【AiBase提要:】

🍎 苹果正在测试名为 'Veritas' 的聊天机器人应用,用于验证新一代 Siri 技术。

🤖 苹果组建了 'AKI' 团队,专注于开发 AI 驱动的网页搜索工具,以接近 ChatGPT 等竞争对手。

📈 新一代 Siri(Project Linwood)预计明年3月亮相,将结合外部模型和自研技术。

7、YouTube 音乐推出 AI 主播,打破音乐聆听的沉默

YouTube 音乐推出了名为 'Beyond the Beat' 的 AI 主播,旨在提升用户的聆听体验。该功能在播放音乐时插入相关的故事、趣闻和评论,增加互动性。尽管存在生成不准确信息的风险,但其潜力仍值得期待。

【AiBase提要:】

🎧 YouTube 音乐推出 AI 主播 'Beyond the Beat',提升用户聆听体验。

🗣️ AI 主播在播放音乐时插入故事、趣闻和评论,增强互动性。

⚠️ 该技术可能生成不准确信息,但仍有潜力带来惊喜体验。

8、LiquidAI 推出 Liquid Nanos 系列轻量级 AI 模型,优化边缘设备应用

LiquidAI 发布了专为边缘计算设备设计的轻量级 AI 模型 'Liquid Nanos',支持多种应用场景,如翻译、抽取、RAG、工具调用和数学推理。该系列提供350M 和1.2B 两种参数版本,并支持 GGUF 量化格式,优化性能与资源利用。首批12款任务专用模型已在 Hugging Face 上线,为开发者提供了丰富的工具选择。

image.png

【AiBase提要:】

🌟 LiquidAI 推出了专为边缘设备设计的轻量级 AI 模型 'Liquid Nanos'。

📊 提供350M 和1.2B 两种参数版本,支持 GGUF 量化格式以优化性能。

🚀 首批12款任务专用模型已在 Hugging Face 上线,涵盖多种应用场景。

详情链接:https://huggingface.co/collections/LiquidAI/liquid-nanos-68b98d898414dd94d4d5f99a

举报

  • 相关推荐
  • AI日报:美团发布推理大模型LongCat-Flash-Thinking;阿里Wan-Animate开源;字节推豆包翻译大模型

    AI日报栏目聚焦人工智能领域最新动态。美团推出高性能推理大模型LongCat-Flash-Thinking;阿里开源Wan-Animate模型革新AI视频生成;字节跳动发布豆包翻译模型,支持28种语言互译;华为与浙大联合推出安全大模型DeepSeek-R1-Safe;阿里云即将发布跨模态模型Qwen3-Omni;xAI推出计算成本降低98%的Grok4Fast模型;YouTube发布多项AI创作辅助功能;IBM推出轻量级文档处理模型Granite-Docling-258M;中科院发布类脑大模型SpikingBrain实现百倍速度突破;OpenAI将推出仅限Pro用户的计算密集型新功能。

  • 美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5

    9月23日,美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking。该模型在保持极致速度的同时,性能更强大、更专业,在逻辑、数学、代码、智能体等多个领域的推理任务中达到全球开源模型最先进水平(SOTA),部分任务性能接近闭源模型GPT5-Thinking。它增强了智能体自主调用工具能力,扩展了形式化定理证明能力,成为国内首个结合深度思考、工具调用与非形式化、形式化推理的大语言模型。在数学、代码、智能体等高复杂度任务上表现尤为突出,多项基准测试成绩领先开源及闭源顶尖模型,已在HuggingFace、Github全面开源。

  • AI日报:豆包大模型1.6-vision发布;DeepSeek发布V3.2-exp模型;Claude Sonnet4.5发布

    本期AI日报聚焦多项技术突破:DeepSeek发布V3.2-exp模型,通过稀疏注意力机制降低API成本50%;Anthropic推出Claude Sonnet 4.5,在编码任务表现卓越;ChatGPT新增即时结账功能,实现对话界面直接购物;OpenAI将推出AI版TikTok,所有内容由Sora2模型生成;百度地图升级小度想想2.0,提供智能出行服务;蚂蚁集团开源万亿参数模型Ring-1T-preview;DeepMind提出“帧链”概念,推动视频模型实现全面�

  • 考拉悠然开源悠然无界大模型BLM-1.0,以空间智能引擎驱动产业变革

    9月28日,在成都举行的“2025天府人工智能产业生态大会”上,考拉悠然宣布其自主研发的“悠然无界大模型BLM-1.0”完成迭代升级并全面开源,同时发布基于该模型的UU Holo Glass O1 AR工业眼镜。此举标志着公司以“技术开源+场景落地”双轮驱动策略,推动空间智能产业生态共建。BLM-1.0突破传统模型局限,具备跨空间、跨任务、跨本体的“三跨”统一能力,在空间理解、推理与执行三大核心能力上刷新行业纪录。配套AR眼镜深度融合空间感知与多模态交互,实现工业运维、安装巡检等场景的全程自动化与智能辅助,显著提升效率并降低成本。

  • AI日报:小米开源首个原生端到端语音大模型;通义万相Wan2.2-Animate正式开源;Suno v5即将上线

    AI日报今日聚焦多项技术突破:小米开源首个端到端语音大模型Xiaomi-MiMo-Audio;通义万相推出全新动作生成模型Wan2.2-Animate;Suno即将发布革命性音乐模型v5;生数科技获数亿融资,视频生成技术商业化加速。同时关注OpenAI修复ChatGPT安全漏洞,谷歌将Gemini集成至Chrome浏览器,Luma AI发布支持16位色的Ray3视频生成模型,法国Mistral推出开源推理模型Magistral Small 1.2,Notion发布AI智能体,腾讯混元3D Studio提升3D创作效率。

  • 没想到,音频大模型开源最彻底的,居然是小红书

    不难发现,近几个月,开源频频成为 AI 社区热议的焦点。尤其是对于国内科技公司来说,开源成为主旋律。根据 Hugging Face 中文 AI 模型与资源社区的数据显示,国内厂商在七八月接连开源33款、31款各类型大模型。 这些开源成果大多落在了文本、图像、视频、推理、智能体以及世界模型领域,而音频生成占比很小。

  • AI日报:生数科技推出Vidu Q2;火山引擎推出炉米Lumi;通义千问开源300+模型

    本文汇总了近期AI领域多项重要进展:生数科技推出Vidu Q2模型,显著提升视频生成中细微表情的真实感;火山引擎发布炉米Lumi平台,支持视觉模型LoRA微调以定制独特风格;阿里云通义千问开源超300个模型,下载量突破6亿次;百度开源多模态视觉理解模型Qianfan-VL,适配不同场景需求;微软在Copilot中引入Anthropic模型,拓展AI助手功能;OpenAI计划在美国新建五个数据中心以加速Stargate项目;英伟达开源Audio2Face模型,提升实时面部动画生成效果;Meta发布具备沙箱推演能力的32B代码世界模型CWM,优化代码调试效率。这些动态展示了AI技术在视觉、多模态、开源生态及硬件支持等方面的快速迭代与创新突破。

  • AI日报:京东物流推出超脑大模型2.0;DeepSeek V3.1终结版发布;Kimi 推出全新 Agent 模式

    本期AI日报聚焦多领域技术突破:京东物流发布“超脑大模型2.0”与“异狼具身智能机械臂系统”,推动物流行业迈向自主执行;DeepSeek推出V3.1终结版,修复漏洞并为V4架构铺路;Kimi上线Agent模式“OK Computer”,支持智能网站开发等复杂任务;ChatGPT新增个性化资讯功能,定制用户专属新闻;Exa Code发布代码索引工具,助力AI代理精准生成代码;Meta推出AI视频创作平台Vibes,简化短视频制作;蚂蚁数科发布隐私保护AI框架Gibbon,推理速度提升超百倍;OpenAI新基准测试显示GPT-5在多个行业逼近人类专家水平,覆盖九大行业44种职业。

  • 小米开源首个原生端到端语音大模型 支持音频重建任务和音频转文本任务

    小米发布首款开源端到端语音大模型Xiaomi-MiMo-Audio,拥有12亿参数,在智能性、情感表达和交互适配方面接近人类水平。该模型最大技术突破在于少样本学习能力,通过创新预训练架构和超一亿小时训练数据,成功突破传统语音模型依赖大规模标注数据的技术瓶颈。基于Transformer架构,支持音频重建和音频转文本等多任务处理。小米已在Huggingface平台发布预训练和指令微调版本,并在Github开源Tokenizer模型,为研究者和开发者提供完整工具链。

  • GEO排名查询工具推荐:霸屏AI大模型答案的核心方法,做好AI大模型排名优化

    随着AI大模型成为用户获取信息的主要入口,AIBase推出GEO排名查询工具,帮助品牌监测在豆包、DeepSeek、文心一言等主流AI平台中的曝光情况。该工具支持多平台检测、关键词追踪、可视化数据展示,可精准分析品牌是否被推荐、出现频次及具体场景,为制定AI大模型排名优化策略提供数据支撑。在GEO时代,抢占AI回答推荐位意味着获得全新流量入口。

今日大家都在搜的词: