AI日报：Open-Sora Plan v1.2发布；Mistral Large2突然开源；腾讯智影推智能画布功能

2024-07-25 15:08 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、震撼来袭!Open-Sora Plan v1.2发布，清晰度、推理速度起飞

Open-Sora Plan v1.2版本引入新的3D全注意力架构，提升了对物理世界的理解能力。更新带来了全新的3D全注意力架构，文本生成视频能力升级，清晰度和一致性提升，空间与时间完美融合，推理速度大幅提升。Open-Sora团队开源代码、数据、模型，致力让每个人成为视频创作的上帝。

【AiBase提要:】
🌟 新的3D全注意力架构让AI对物理世界有质的飞跃，360度无死角理解立体世界。
🎥 文本生成视频能力升级，敲下文字即可呈现栩栩如生的视频画面。
⏱️ 空间与时间完美融合，视频在空间表现和时间流畅度上显著提升。
详情链接:https://top.aibase.com/tool/open-sora-plan-v1-2

2、神仙打架!Mistral Large2突然开源:1230亿个参数、媲美Llama3.1

Mistral AI推出旗舰模型Mistral Large2，拥有1230亿个参数，超大的128k上下文窗口，性能与成本表现卓越。用户可通过La Plateforme访问新模型，在云服务平台上广泛应用。

【AiBase提要:】
🌟 Mistral Large2具备128k上下文窗口，支持多达十种语言及80多种编程语言。
📈 在MMLU基准测试中实现84.0%的准确率，性能与成本表现卓越。
💻 用户可通过La Plateforme访问新模型，并在云服务平台上广泛应用。
详情链接:https://console.mistral.ai/

3、腾讯智影PC端推出“智能画布”功能

腾讯智影PC端最近推出了一项新功能——“智能画布”，为用户提供了多种实用的图片编辑功能，结合AI绘画技术，让作图变得更加轻松。这项功能特别适合需要对AI绘画图片进行再创作、抠图、消除、扩图等编辑操作的用户。用户现在可以登录智影首页，体验这些新功能。

【AiBase提要:】
🎨 智能画布结合AI绘画技术，提供多种实用的图片编辑功能，让用户轻松进行再创作、抠图、消除、扩图等操作。
🖌️ 用户可以选择画布尺寸并上传图片，利用丰富的素材贴纸和工具进行编辑，还可进行AI创作。
🔍 智能画布提供图片AI调整功能，包括裁剪、抠图、消除、扩图、局部重绘、无损高清，满足各种创意和专业需求。

4、金山办公WPS AI上线“AI 伴写”功能

金山办公最近推出了WPS AI中的AI伴写功能，旨在提升用户写作效率和质量。用户可通过WPS Office界面启用该功能，享受智能建议和续写服务，轻松表达灵感。AI伴写还提供多样化的内容生成和中华诗词引用支持，增强写作连贯性。WPS AI2.0升级进一步推动了人工智能在办公领域的应用。

【AiBase提要:】
✨ 提升写作效率和质量，智能辅助用户写作
📚 多种场景角色满足不同用户的写作需求
💡 提供智能建议、续写服务和多样化内容生成，支持中华诗词引用

5、Stable Video4D横空出世，一键让你的视频变身全景大片!

Stable Video4D是一款颠覆性的视频处理工具，由Stability AI推出，能让普通视频变身为八面玲珑的全景大片。其快速生成多视角视频，保持画面一致性，将影响游戏开发、视频编辑和VR制作领域。未来或将改变观影方式，带来全新的互动式体验。

【AiBase提要:】
🎥 Stable Video4D能让普通视频变身为全景大片，展现多角度细节。
🔮 快速生成多视角视频，保持画面一致性，应用前景广阔。
🌌 未来或将改变观影方式，带来全新的互动式体验。
详情链接:https://huggingface.co/stabilityai/sv4d

6、AI音乐生成工具Udio更新 V1.5模型音质提升显著

昨晚，AI音乐生成工具Udio带来了一系列令人瞩目的更新，其中V1.5模型的音质得到显著提升，为音乐创作者提供更清晰丰富的听觉体验。新功能包括关键音调控制、多语言支持等，拓宽了用户群体。产品功能增强包括专属创作页面、下载音乐片段等，提供更个性化和高效的创作环境。

【AiBase提要:】
✨ V1.5模型音质显著提升，提供更清晰丰富的听觉体验。
🎵 新功能包括关键音调控制和多语言支持，满足创作者需求。
🔧 产品功能增强包括专属创作页面、下载音乐片段，提供更个性化和高效的创作环境。
详情链接:https://top.aibase.com/tool/udio

7、媲美GPT-4o!复旦推语音模型SpeechGPT2能听懂你的喜怒哀乐

SpeechGPT2是复旦大学研究团队提出的一种创新的大型语言模型，具有跨模态的语音理解和生成能力。虽然展现出强大的任务执行能力，但仍存在噪声鲁棒性和音质稳定性方面的挑战。团队计划未来开源技术报告、代码和模型权重，以推动技术的进一步发展和完善。

【AiBase提要:】
🔑 SpeechGPT2是一种新型的大型语言模型，具有跨模态的语音理解和生成能力。
🔑 SpeechGPT2通过三阶段训练策略，包括模态适应预训练、跨模态指令微调和模态链指令微调。
🔑 SpeechGPT2展现出强大的能力，在文本任务、跨模态任务和口语对话任务上表现出色。
详情链接:https://top.aibase.com/tool/speechgpt2

8、Reddit开启 “付费墙”，屏蔽搜索引擎和AI机器人随意抓取内容

Reddit最近采取了引人注目的举动，开始限制各大搜索引擎和AI机器人获取其内容，需付费才能获取。这一举措导致除Google外的搜索引擎无法轻易访问最新的Reddit内容，引发了广泛关注和讨论。

【AiBase提要:】
🌐 付费墙开启: Reddit限制搜索引擎和AI机器人访问内容，需付费才能获取。
🤖 Google独占资源: 只有Google能通过“site:reddit.com”获取最新结果，其他搜索引擎被排除。
💰 数据变现策略: Reddit加强数据保护，提升API费用，寻求新的收入来源以吸引投资者。

9、Nvidia AI推ChatQA2长文本理解和RAG能力媲美GPT-4

在人工智能的快速发展中，长文本上下文理解和检索增强生成（RAG）的能力变得至关重要。Nvidia AI 的最新研究——ChatQA2模型，正是为了应对这一挑战而生。ChatQA2通过扩展上下文窗口和实施三阶段指令调整过程，取得了与GPT-4-Turbo相媲美的长文本理解和RAG性能。

【AiBase提要:】
⚙️ ChatQA2通过将上下文窗口扩展到128K tokens，显著提升了指令遵循能力和长文本理解。
🔍 ChatQA2在InfiniteBench评估中超越了GPT-4-Turbo，在多项任务上表现出全面能力。
💡 ChatQA2解决了RAG流程中的关键问题，提高了检索的准确性和效率。
详情链接:https://arxiv.org/abs/2407.14482

10、百川智能完成50亿元A轮融资，估值达200亿元

百川智能近期完成A轮融资，融资总额达50亿元人民币，估值攀升至200亿元。这标志着大模型初创公司取得了重要的资本支持，展现出行业发展的活力和潜力。

【AiBase提要:】
🚀 大模型初创公司百川智能完成50亿元A轮融资，估值达200亿元，吸引国资背景产业投资基金加入。
💡 百川智能在医疗AI领域表现突出，Baichuan3模型超越GPT-4，提出AI医疗的L0-L5分级发展路线。
💰 大模型行业融资格局变化，国资背景基金成为重要资金来源，公司采取超级模型+超级应用双轮驱动策略。

11、英伟达推出 Minitron 小型语言模型

英伟达最新推出的Minitron小型语言模型在人工智能领域引起轰动。这一系列模型训练速度提高了40倍，通过修剪和知识蒸馏技术，大幅降低了训练成本，并已开源在Huggingface上，推动AI技术普及。

【AiBase提要:】
📈 提升训练速度: Minitron模型训练速度比传统模型快40倍，省时省力。
💡 节省成本: 通过修剪和知识蒸馏技术，降低训练所需的计算资源和数据量。
🌍 开源共享: Minitron模型已在Huggingface上开源，促进更多人获取和使用AI技术。
详情链接:https://huggingface.co/collections/nvidia/minitron-669ac727dc9c86e6ab7f0f3e

12、OpenBuddy开源大语言模型团队发布Llama3.1-8B模型中文版

Meta最近发布了新一代开源模型系列Llama3.1，其中包括一个405B参数的版本，其性能接近甚至在某些基准测试中超越了GPT-4等闭源模型。OpenBuddy利用Llama3.1-8B-Instruct模型，通过在少量中文数据上进行训练，发布了OpenBuddy-Llama3.1-8B-v22.1-131K，具备中文问答和跨语言翻译能力。

【AiBase提要:】
🚀 Llama3.1-8B-Instruct是新一代开源模型，支持多语言且上下文长度高达131072tokens，展现出与GPT3.5Turbo相近的认知和推理能力。
🔍 OpenBuddy-Llama3.1-8B-v22.1-131K是具备中文问答和跨语言翻译能力的新一代开源跨语言模型，展现出更强的认知潜力。
💡 OpenBuddy计划对8B和70B模型进行更大规模的训练，以增强模型的中文知识储备、长文能力和认知能力，并探索微调405B模型的可能性。
详情链接:https://modelscope.cn/models/OpenBuddy/openbuddy-llama3.1-8b-v22.1-131k

13、颠覆认知!AI自训练9次崩溃牛津剑桥发现AI潜藏致命弱点

这篇文章揭示了通过再训练AI图像生成模型使用自己生成的图像可能导致模型崩溃的现象。研究人员发现，即使只包含少量自生成图像在再训练数据中，模型也会产生高度扭曲的图像，难以完全恢复。这一发现提醒我们AI系统对数据“污染”非常敏感，需要谨慎处理。

【AiBase提要:】
⚠️ 再训练AI模型使用自生成图像可能导致模型崩溃，图像质量急剧下降
🔍 模型崩溃不仅影响图像质量，还导致生成的图像缺乏多样性
⚔️ 一旦模型被“污染”，恢复困难且可能是长期甚至不可逆的
详情链接:https://arxiv.org/pdf/2311.12202

（举报）

相关推荐

关键词：

荐Sora App的AI视频社交，给了百度们新希望

Sora2发布两周后，百度的蒸汽机AI视频模型，和谷歌Veo3.1撞了档期。两家公司选择同期发布并非有多默契，而是Sora2带来的压迫感促使它们不得不加快脚步。奥尔特曼将形容Sora2为“创意领域的ChatGPT3.5时刻”，不仅在物理逻辑、画面连贯性、真实感和音画同步等方面实现了质的飞跃，还把Sora从一个“文本到视频”的工具进化成一个“创意到生态”的平台。这无疑是扔在AI视�

文章搜索核心标签 AI视频模型
逗哥配音团队：以硬核技术铺就AI创作未来，重塑短视频创作生态

逗哥配音平台凭借AI语音技术革新，为短视频创作者提供全方位赋能。平台集成上千款覆盖多年龄风格的真人声音资源，支持多语言合成，具备媲美真人的情感表达能力。其核心功能包括AI角色分配、5秒极速克隆及20项精细调节工具，结合去水印、字幕生成等实用功能，实现一站式创作。已获超百位大V推荐，用户量破千万，累计播放量达十万亿级，显著降低创作门槛，助力各领域内容生产。团队将持续优化技术，拓展功能生态。

AI配音内容创作语音合成
京东11.11直播技术全面升级，立影3D技术、JoyAI大模型重构沉浸式购物体验

京东在双11期间升级直播技术，推出“立体3D技术”和“JoyAI大模型”等创新。立体3D技术实现裸眼360度商品展示，用户无需额外设备即可旋转查看产品细节；JoyAI生成虚拟偶像Aura，与真人明星跨次元互动，提升趣味性。AI工具还简化直播运营，支持智能脚本和选品。这些技术打破传统直播边界，增强沉浸感和互动效率，引领电商直播创新方向。

京东11.11 立影3D技术 JoyAI大模型
京东11.11直播技术全面升级，立影3D技术、JoyAI大模型重构沉浸式购物体验

京东在11.11大促期间升级直播技术，推出“立体3D技术”和“JoyAI大模型”等创新，打破传统直播边界。立体3D技术实现裸眼360度商品展示，用户无需额外设备即可旋转查看产品细节；虚拟偶像Aura等跨次元互动增强趣味性。AI全链路工具简化主播运营，提升内容创作效率。这些举措为用户带来沉浸式购物体验，引领直播电商技术革新方向。

京东11.11 立影3D技术 JoyAI大模型
佳能R50V：一款小巧便携的全能双修微单，让外出创作更自由

佳能R50V全能双修微单相机以轻巧便携、专业性能为核心，机身仅重323克，支持6K超采4K视频录制与2420万像素APS-C传感器。配备第二代全像素双核AF对焦系统，内置14种色彩滤镜与Canon Log3曲线，满足Vlog、直播及户外拍摄需求。通过USB一线连实现4K传输供电，新增竖拍UI适配手机观看，拓展创作边界，是旅行博主与内容创作者的理想工具。

佳能R50V 微单相机 vlog拍摄
华为官方文档确认：Mate 80全系支持3D人脸

华为Mate80系列预计11月发布，含标准版、Pro版及RS大师版四款。官方文档显示全系支持3D人脸识别，但标准版配置待确认。后摄模组采用居中圆形设计，搭载首发的麒麟9030芯片及鸿蒙OS 6系统，性能将提升。顶配RS版配备6.9英寸双层OLED屏，亮度更高功耗更低，并可能支持eSIM功能。

HarmonyOS 华为Mate80 3D人脸识别
百度智能云这项开源，让 DeepSeek-V3.2 推理服务吞吐提升 2 倍

10月28日，百度智能云联合SGLang社区开源针对DeepSeek-V3.2优化的多token预测（MTP）技术代码。该技术通过批量生成和集中验证机制，使模型解码吞吐量提升超2倍，突破传统自回归解码的序列化瓶颈。此次开源的MTP方案已完成与DeepSeek-V3.2稀疏注意力架构的深度适配，并经过百度内部业务验证，开发者可"开箱即用"获得稳定可靠的推理加速能力。

百度智能云 DeepSeek-V3.2 MTP技术
小米智能门锁M40 Pro发布：售价3229元起 33D人脸+掌静脉

小米正式发布智能门锁M40 Pro，预售价3229.15元，叠加补贴后低至2880.4元。配备5英寸高清大屏与AI双摄全景猫眼，实现无死角监控；搭载6颗夜视补光灯，支持多种夜视模式。提供12种开锁方式，包括创新AI掌静脉识别（解决老人指纹磨损问题）和AI 3D人脸识别（防伪检测）。采用自研降噪全自动锁体，支持双电池供电（总续航10.5个月），新增门内长时插线充电功能，支持Type-C应急供电和手机无线反向充电。

小米智能门锁 M40Pro预售智能门锁优惠
聚焦人像创作核心需求：五款微单逐机拆解，佳能 R50V 全方位领先

本文针对5000-8000元价位微单相机，聚焦人像拍摄需求，推荐五款热门机型。佳能R50V凭借肤色还原精准、全场景追焦、画质纯净及轻量化设计成为首选，尤其适合直出需求用户。其他机型各具特色：富士X-T30 II主打胶片模拟文艺风，尼康Z50 II侧重多场景均衡，松下G100D适合日常Vlog记录，富士X-T50则以高像素见长。文章建议根据创作场景（静态人像/视频双修/文艺风格）针对性选择，并指出R50V在综合性能上最具竞争力。

人像摄影微单相机选购指南
何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

小鹏汽车在2025科技日发布第二代VLA大模型，颠覆传统“视觉-语言-动作”架构，实现端到端直接输出动作指令，开创物理模型新范式。该模型具备动作生成与物理世界理解能力，参数规模达数十亿级，训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载，推动智驾技术显著进化，同步发布“小径NGP”功能，复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示，大模型将成为物理AI世界的操作系统，并宣布与大众汽车达成战略合作，共同推进智能出行发展。

小鹏汽车 VLA大模型智能出行

今日大家都在搜的词：

热文

3 天
7天

AI日报：Open-Sora Plan v1.2发布；Mistral Large2突然开源；腾讯智影推智能画布功能

荐Sora App的AI视频社交，给了百度们新希望

逗哥配音团队：以硬核技术铺就AI创作未来，重塑短视频创作生态

京东11.11直播技术全面升级，立影3D技术、JoyAI大模型重构沉浸式购物体验

京东11.11直播技术全面升级，立影3D技术、JoyAI大模型重构沉浸式购物体验

佳能R50V：一款小巧便携的全能双修微单，让外出创作更自由

华为官方文档确认：Mate 80全系支持3D人脸

百度智能云这项开源，让 DeepSeek-V3.2 推理服务吞吐提升 2 倍

小米智能门锁M40 Pro发布：售价3229元起 33D人脸+掌静脉

聚焦人像创作核心需求：五款微单逐机拆解，佳能 R50V 全方位领先

何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

今日大家都在搜的词：

热文

阿里回应饿了么更名：正处于灰度测试阶段

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

马斯克称若发现外星人证据就公开

vivo Y500 Pro官宣11月10日发布：同档首发2亿HP5主摄

鸿蒙智行新款享界S9官宣11月7日开订

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

B站回应拉黑指定用户可屏蔽开屏广告：不实信息

问界M7提车关爱计划发布：等车超10周最高可补贴10000元

小米智能门锁M40 Pro发布：售价3229元起 33D人脸+掌静脉

鸿蒙HarmonyOS 6与iOS数据互传功能预计12月上线

AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功

DeepSeek崩了上热搜页面显示“服务器繁忙”

特斯拉Cybercab不配备方向盘和踏板预计2026年二季度下线

阿里回应饿了么更名：正处于灰度测试阶段

OPPO ColorOS 16正式版11月升级机型公布：支持23款机型

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

马斯克称若发现外星人证据就公开

何小鹏：小鹏X9超级增程是全球续航最长的大七座车

卢伟冰评Air手机：大胆创新但极致薄牺牲用户体验

站长商机