11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
腾讯云
12-20
本期AI日报聚焦多项技术进展:字节跳动火山引擎发布“豆包”系列2.0版本,旨在降低专业内容生产门槛;MiniMAX M2.5模型开启海外内测,加速全球化布局;小米开源首款机器人VLA大模型,突破物理智能延迟瓶颈;百度千帆推出集成主流大模型的AI编码订阅服务Coding Plan;智谱发布GLM-5,迈向工程构建的Agentic Ready时代;DeepSeek上下文长度跃升至1M,处理能力大幅提升;Rokid眼镜新增�
本文汇总了AI领域最新动态:蚂蚁集团开源全模态大模型Ming-flash-omni 2.0,在多模态理解与生成方面表现优异;智谱AI的GLM-5模型引发关注,股价飙升;科大讯飞发布星火X2大模型,基于国产算力深耕专业场景;京东推出“AI付”语音支付产品,提升便捷与安全;DuckDuckGo上线注重隐私的免费AI语音聊天功能;阿维塔车载系统升级,融合大模型与华为智驾;ChatGPT上线保险比价应用,冲击传统中介;OpenAI升级研究工具,引入GPT-5.2驱动并新增全屏报告交互体验。
今日,蚂蚁集团开源发布全模态大模型 Ming-Flash-Omni 2.0。 在多项公开基准测试中,该模型在视觉语言理解、语音可控生成、图像生成与编辑等关键能力表现突出,部分指标超越 Gemini 2.5 Pro,成为开源全模态大模型性能新标杆。 Ming-Flash-Omni 2.0 也是业界首个全场景音频统一生成模型,可在同一条音轨中同时生成语音、环境音效与音乐。 用户只需用自然语言下指令,即可对音色�
过去一年,生成式AI在音乐行业不断创造新体验,但歌唱语音合成(SVS)领域进展相对缓慢。为拓展这一领域,Soul AI Lab联合吉利汽车研究院人工智能中心、天津大学视听认知计算团队和西北工业大学音频语音与语言处理研究组,正式开源歌声合成模型SoulX-Singer。这是一个面向真实应用场景设计的高质量零样本歌声合成模型,基于超过42000小时训练数据,覆盖多语言、多音色及多种演唱风格,在稳定性、可控性与泛化能力方面均达到当前开源SVS模型中的领先水平。
Soul AI Lab开源实时数字人生成模型SoulX-FlashTalk,实现0.87秒亚秒级超低延迟、32fps高帧率,支持超长视频稳定生成。该模型具备“零延迟”即时反馈、高精细度全身动作合成、超长视频稳定生成等亮点,通过双向蒸馏与多步回溯自校正机制解决传统方案延迟高、画面不一致等问题。在电商直播、短视频制作、AI客服等场景提供高质量、可落地的解决方案,推动大参数量实时生成式数字人迈入具体商用阶段。
阶跃星辰发布新一代开源Agent基座模型Step 3.5 Flash。该模型面向实时Agent工作流场景,兼顾推理速度、智能水平与使用成本,在单请求代码类任务上,最高推理速度可达每秒350个token。模型采用稀疏MoE架构,每个token仅激活约110亿参数,显著提升推理效率,为Agent应用提供更高效、可负担的底层模型选择。多家芯片厂商已完成适配,通过底层联合创新提升模型适配性和算力效率,有效降低推理成本与应用门槛,加速大模型在实际场景中的落地。
1月30日,开放原子“园区行”(苏州站)暨OPC开源对接会在苏州人工智能产业园举办。本次活动聚焦开源技术与实体经济融合,汇聚政产学研及企业代表,共探产业数字化转型新路径。奥思维受邀参会,并带来《AI Agen在制造业落地实践的最后一公里》主题演讲,成为现场制造业AI落地的核心分享亮点。活动中,开放原子开源基金会业务发展部部长付海巍介绍到:基金会已成功孵�
本期AI日报聚焦具身智能与AI应用新动态。蚂蚁集团发布LingBot-VLA模型,实现双手机器人通用操控;宇树开源UnifoLM-VLA-0模型,为机器人注入物理常识。开源AI助手OpenClaw更名后受关注,强调隐私安全。商汤开源SenseNova-MARS模型,在多个榜单超越GPT-5.2。腾讯“元宝派”社交功能内测截图泄露,整合微信与QQ好友,支持同步观影听歌。马斯克计划明年推出高度个性化AI生成游戏与影音内容。Anthropic因涉嫌大规模盗版遭音乐出版商起诉,索赔30亿美元。字节与阿里在春节前后发布新一代大模型,争夺云端主导权。
本期AI日报聚焦多项AI技术突破:MiniMax Music 2.5发布,提升AI音乐可控性与真实度;蚂蚁灵波开源世界模型LingBot-World,为具身智能等提供高保真数字环境;谷歌Gemini 3.5泄露,单次提示可生成三千行代码;Kimi K2.5 Agent升级,高效处理Excel、Word等办公文档;蘑菇物联“灵知”垂直大模型通过备案,专注工业辅助与能源领域;昆仑万维SkyReels-V3开源,实现多模态视频生成;昆仑天工发布音乐大模型Mureka V8,推动AI音乐迈向“可发布”级别;三星宣布下一代AR眼镜将于2026年发布,主打多模态AI体验。
本期AI日报聚焦多领域AI新动态:腾讯混元图像3.0开源,成为全球最强开源图生图模型;月之暗面发布Kimi Code,推动国产AI编程工具进入新阶段;开源项目Clawdbot因商标风险更名Moltbot,并遭诈骗者利用旧账号发布虚假代币;谷歌AI Plus计划正式扩展至美国等35个市场,月费不足8美元;OpenAI发布基于GPT-5.2的科研协作平台Prism;谷歌Aluminum OS界面首曝,深度融合Android与ChromeOS;Mistral AI发布终端编程助手Vibe 2.0,步入“子代理”时代;小米AI眼镜深度集成支付宝,实现停车缴费与健康管理“无感交互”。