AI日报：智谱Realtime、4V、Air系列模型发布；Vidu2.0上线10秒生成短片；xAI上线Grok网页版

2025-01-16 15:40 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、Luma AI 推出Ray2视频生成模型，实现更快更自然的运动效果

Luma AI最近推出了Ray2视频生成模型，标志着在AI视频创作领域的重要进展。Ray2经过大量计算训练，提升了视频生成的速度和自然度，用户可以通过简单的文本描述生成短视频。尽管在复杂提示下可能出现失真，整体反馈积极。为了庆祝这一发布，Luma Labs还举办了大奖赛，鼓励创作者参与并有机会赢得奖金。

【AiBase提要:】
🌟 Ray2生成视频模型发布，提升视频创作效率和自然度。
🎥 支持文本到视频的快速生成，用户可轻松制作短视频。
💰 举办 Ray2大奖赛，创作者有机会赢得高达7000美元的奖金。
详情链接:https://lumalabs.ai/ray

2、马斯克旗下xAI上线Grok网页版无需X账号即可体验

近日，埃隆·马斯克旗下的xAI公司推出了网页版Grok AI聊天机器人，用户无需访问X.com或拥有X账户即可体验其强大功能。只需在浏览器中访问grok.com并提供出生年份，用户便可立即使用这款智能聊天机器人。Grok AI不仅能实时收集信息和解答问题，还具备生成图像的能力，带来便捷的用户体验。

【AiBase提要:】
🌐 Grok AI网页版上线，用户无需X账户即可使用。
🤖 只需提供出生年份，便可体验智能聊天功能。
🔒 临时模式保护用户隐私，聊天内容不被记录。

3、智谱AI成首家被美国列入实体清单的中国大模型公司，回应称不受影响

智谱AI被美国商务部列入出口管制实体清单，成为首家被制裁的中国大模型公司。尽管面临制裁，智谱AI强调其技术源自清华大学，并表示制裁不会对其运营造成实质性影响。智谱AI在大模型技术领域持续创新，展现出强大的市场前景和技术实力。

【AiBase提要:】
📉 智谱AI成为首家被美国列入实体清单的中国大模型公司，标志着对中国AI产业的新一轮打压。
🔧 公司强调其技术源自清华大学，拥有全链路大模型核心技术，制裁不会影响正常运营。
📱 智谱AI正在与苹果洽谈合作，显示出其技术实力和市场前景。

4、阶跃星辰自研推理模型Step Reasoner mini上线

上海阶跃星辰智能科技有限公司推出了其自研的推理模型Step Reasoner mini（Step R-mini），该模型以其超长推理能力在逻辑推理、代码和数学等领域表现出色。Step R-mini通过大规模强化学习训练，能够兼顾文理科双向能力，展现了在复杂问题解决和内容创作上的卓越性能。

微信截图_20250116133149.png

【AiBase提要:】
🧠 Step R-mini是首个推理模型，擅长主动规划和反思，提供准确可靠的回复。
📊 在数学和逻辑推理任务中，Step R-mini展现出色的解题能力，能够处理复杂问题并提供多种解法。
🎨 该模型在内容创作中深入理解用户需求，具备创新表达风格，能够生成富有情感的文学作品。
详情链接:https://yuewen.cn

5、阿里巴巴Qwen 团队发布新型过程奖励模型，数学推理再进化

阿里巴巴 Qwen 团队最新发布的论文介绍了新型过程奖励模型（PRM）在数学推理中的应用，推出了 Qwen2.5-Math-PRM 系列模型，显著提升了推理的准确性和泛化能力。这些模型通过创新的共识过滤机制和蒙特卡洛估计，解决了传统方法在推理过程中的不足，尤其是在教育和科学计算等领域的应用前景广阔。

【AiBase提要:】
🔍 新模型突破了现有 PRM 框架的限制，显著提高了数学推理的准确性和泛化能力。
📊 采用共识过滤机制，有效降低了数据噪声约60%，提升了训练数据质量。
🚀 Qwen2.5-Math-PRM 系列在多个评估指标上表现优异，尤其在逐步识别错误的任务中超越了许多专有模型。

6、Kinetix 推出全新AI视频技术可精准控制角色动作

Kinetix最近推出了一项创新的AI视频技术，能够通过结合真人表演和文本指令，实现对数字角色动作的精准控制。这项技术的操作流程简单易懂，用户无需专业的动画制作经验也能快速创作出高质量的动画内容。凭借强大的3D动画数据库支持和合成数据生成管道，Kinetix不仅大幅缩短了制作时间，还降低了成本。

【AiBase提要:】
🤖 通过结合真人表演视频和文本指令，Kinetix的AI技术实现了对数字角色动作的精确操控。
💡 系统支持多种动作和表情的精准捕捉，用户可调节动作的速度、幅度和节奏，提升角色表现效果。
⏱️ 制作时间从传统的数周缩短至数小时，降低制作成本，使中小型团队和个人创作者也能轻松实现专业动画。
详情链接:https://www.kinetix.tech/character-motion-control-for-video-generation-models

7、线稿上色的新技术MangaNinja:输入线稿和参考图，精准给线稿上色

MangaNinja是一种创新的线稿上色技术，通过输入线稿和参考图像，能够实现高精度的上色效果。该技术基于扩散模型，采用补丁重排模块和点驱动控制方案，显著提升了上色的准确性和图像质量。MangaNinja在处理复杂场景时表现出色，能够有效解决角色姿势变化和颜色混淆等问题，为用户提供了更大的创作灵感和可能性。

【AiBase提要:】
🌟 MangaNinja 是一种基于参考图像的线稿上色方法，具备精准匹配和细致控制的能力。
🎨 通过创新的补丁重排模块和点驱动控制方案，MangaNinja 显著提升了上色的准确性与图像质量。
🖌️ 该技术能够应对多样化的上色挑战，包括极端姿势和多参考图像的协调，实现高质量的互动上色体验。
详情链接:https://johanan528.github.io/MangaNinjia/

8、微软AutoGen v0.4发布:AI 智能体灵活性和跨语言能力大提升

微软最新发布的AutoGen v0.4版本显著提升了AI代理的灵活性和可控性，解决了用户在使用过程中遇到的架构限制和效率低下的问题。新版本引入的异步消息传递机制和跨语言互操作性，使得开发者可以更方便地构建复杂的代理网络。

【AiBase提要:】
💡 AutoGen v0.4版本增强了 AI 代理的灵活性，解决了用户反馈的问题。
🌐 新版支持异步消息传递和跨语言互操作性，提升了代理之间的协作能力。
🔧 AutoGen Studio 低代码界面的升级，使得用户可以更方便地设计和管理代理。
详情链接:https://www.microsoft.com/en-us/research/blog/autogen-v0-4-reimagining-the-foundation-of-agentic-ai-for-scale-extensibility-and-robustness/

9、腾讯会议全新升级上线AI小助手Pro

腾讯会议近期推出了AI小助手Pro，基于腾讯混元千亿级参数大模型，具备深度理解和快速响应的能力，能够为用户提供精准的会议支持。此次升级还优化了组织协同功能，提升了会议效率，用户可以更方便地管理会议通知和录制分享。同时，新增的个人身份认证和企业认证功能也增强了会议的专业性与安全性。

【AiBase提要:】
🤖 AI小助手Pro支持联网搜索和多种任务处理，能深度理解会议内容，提供精准回答。
📅 用户可在会议中直接创建组织，快速添加参会者，提升会议效率。
🔒 新增身份认证功能，增强会议安全性和专业性，提升用户体验。

10、一家初创公司用AI智能体在Reddit大肆刷推广帖还让人毫无察觉

最近，Astral创业公司因利用AI技术在Reddit上发布广告而备受关注。创始人萨瓦娜·费德展示了这项技术的快速应用能力，能够生成与用户讨论相似的内容，从而推销客户的产品。这种手法不仅高效，还能在不被察觉的情况下插入广告信息，引发了人们对网络空间未来的担忧，传统互联网可能被无休止的商业化和垃圾信息所侵蚀。

【AiBase提要:】
💡 Astral利用AI技术在Reddit上迅速生成用户相似的广告帖子。
📈 创始人设计AI代理绕过Reddit限制，专注于商业推广而非用户服务。
🚨 此举引发对网络内容未来的担忧，社交媒体可能充斥广告与垃圾信息。

11.智谱发布 GLM-4-Air、GLM-4V-Plus 模型，设立 Flash 全模态免费模型

智谱华章科技公司发布新模型 GLM-4-Air 和 GLM-4V-Plus，并推出全新端到端模型 GLM-Realtime，实现低延迟的视频理解和语音交互。该公司致力于提供高性价比的语言模型解决方案，并设立 Flash 全模态免费模型，支持多种应用场景，助力开发者创新。

【AiBase 提要：】
🌟 推出 GLM-Realtime，具备清唱功能和 2 分钟记忆能力。
💡 GLM-4-Air-0111 全面升级，降低应用门槛至原来 50%。
📈 Flash 全模态免费模型系列，支持多模态理解和生成。
项目入口：bigmodel.cn

12.Vidu2. 0 正式上线10 秒生成短片，主体一致性效果更佳

Vidu 视频大模型正式发布 2.0 版本，生成短片的速度从 30 秒缩短至 10 秒，效率提升三倍。新版本优化了视频质量，保证了风格和主体的一致性，首尾过渡自然流畅。Vidu2.0 还推出超值套餐，降低了创作成本，并支持批量生成和本地支付，进一步便利用户。

【AiBase 提要：】
🎥 Vidu2.0 将短视频生成时间从 30 秒缩短至 10 秒。
💡 新版本在视频质量和一致性上进行了全面优化。
💰 超值套餐和本地支付提升了用户创作体验。

（举报）

相关推荐

关键词：

荐AI日报：智谱AI发布AutoGLM 2.0；腾讯元宝接入腾讯视频；字节发布开源大语言模型 Seed-OSS

本期AI日报聚焦多项AI技术突破：智谱发布革命性语音代理AutoGLM 2.0，实现全平台语音操控；腾讯元宝接入视频平台提升观影便捷性；字节跳动开源大模型Seed-OSS专注长文本处理；速卖通AI代理助力新品推广效率翻倍；微软测试Copilot智能文件搜索功能；Liquid AI推出低延迟视觉语言模型LFM2-VL；OpenAI月收入首破10亿美元；谷歌Pixel 10系列全面升级AI功能，包括情感识别和实时翻译；Pixel Buds Pro 2引入AI手势控制；ElevenLabs发布支持70+语言的文本转语音API。

AI产品 AutoGLM 2.0
马斯克母亲发帖支持儿子：演示Grok视频生成功能

近日，马斯克母亲梅耶-马斯克发帖演示支持马斯克的Grok视频生成功能。她表示，这次我把手指放在了最近在X上发布的这张照片上，提示是用Grok制作视频”，现在自己的狗摇着尾巴了，自己玩得很开心。她还特别提示，这个视频由@grok Imagine制作。

马斯克 Grok 视频生成
荐AI日报：B站测试AI视频工具花生AI；腾讯发布多模态模型Large-Vision；昆仑万维开源Skywork UniPic 2.0

【AI日报】主要内容： 1. B站测试"花生AI"视频工具，3分钟可成片，同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0，实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI，苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision，支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐，仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新：恢复GPT-4o默认模式，为GPT-5引入多模式选择，优化交互体验

AI视频创作花生AI B站AI工具
荐AI日报：阿里开源Qwen-Image-Edit；淘宝“AI万能搜”功能灰度测试；小红书发布DynamicFace人脸生成技术

本期AI日报聚焦多项AI领域创新：1）阿里开源Qwen-Image-Edit图像编辑模型，支持中文渲染与精准文本编辑；2）淘宝测试"AI万能搜"功能，重构电商搜索体验；3）小红书发布DynamicFace人脸生成技术，实现高质量图像视频换脸；4）Gemini API新增URL Context功能，简化网页内容获取流程；5）Nvidia推出小型开放模型Nemotron-Nano-9B-v2，支持智能推理开关；6）马斯克发布Grok Imagine 0.1测试版，进军AI图像生成领域；7）Vercel推出iOS版AI开发工具v0；8）理想汽车发布MindGPT 3.1模型，处理速度提升5倍；9）ToonComposer工具简化动画制作流程；10）ElevenLabs推出视频到音乐生成流程。

AI 开源图像编辑
荐告别反复横跳，我用一张画布给AI视频创作配上了一条“流水线”

今年的世界人工智能大会（WAIC），可能是史上最热闹的一届。不仅展馆规模创下新高，超过800家企业带来了3000多项展品，线下参观人数也远超去年。而如果你也在现场，穿梭在拥挤的人潮中，你会发现有一个展台前总是被围得水泄不通，其中还夹杂着大量专程赶来的海外观众。这个展台就是可灵 AI。这一次，之所以会被这些专业目光团团围住，并非是可灵 AI 的又一次�

人工智能世界人工智能大会可灵AI
大模型技术赋能声音创作：逗哥配音引领AI语音合成新浪潮‌

逗哥配音作为国内领先的AI配音平台，凭借自主研发的语音合成大模型技术，已服务超千万创作者，累计生成音频量突破270亿次。其核心技术突破包括：1）支持40种语言，语音质量MOS分提升0.25，拟人度超83%；2）首创"AI分角功能"，将多角色配音效率提升90%以上；3）建成覆盖近千款发音人的全球声库，包含方言、外语及影视角色音；4）创新"真人声纹+AI增强"模式，

人工智能大模型技术 AI配音
荐AI日报：DeepSeek V3.1正式发布；企业微信5.0推出全新AI能力；快手 Klear-Reasoner 模型成功登顶

AI日报栏目聚焦人工智能领域最新动态。DeepSeek V3.1发布，大幅增强长文档分析和代码理解能力；企业微信5.0集成智能搜索、总结和机器人功能；快手Klear-Reasoner模型数学推理准确率超90%；谷歌Docs新增AI语音朗读功能；Firecrawl完成1450万美元融资并推出V2版本API；Meta上线AI语音翻译功能；微软Excel集成Copilot实现一键数据分析；Claude桌面客户端推动AI编程可视化；苹果Xcode将原生集成Cl

AI DeepSeek V3.1
长视频自己的音乐节：从一个人刷片，到七万人狂欢

当夕阳余晖洒下，毛不易的歌词「一杯敬月光、一杯敬过往」在巨型竖屏出现，所有台下的合唱观众，感受到了一种强烈的共鸣。同一刻、在一起，体验同一种情绪，成了用户与腾讯视频之间的「独家记忆」。这是国内长视频平台首次把音乐节与内容紧密结合，通过一场线下活动，腾讯视频想要回应一个期待:为私密的、个人的线上观影行为，制造一种「共同在场感」。无�

文章搜索核心标签长视频平台
如何用3分钟精准计算AI大模型成本？避免生成一篇万字文章就超支？

AI大模型成本控制指南：实测三步预算法+企业级避坑方案。文章揭露行业痛点：1）价格迷雾：各厂商计费规则差异大，长文本/多模态存在隐藏溢价；2）团队实测GPT-4生成20篇行业分析（50万字）实际账单超预算4倍。解决方案：通过AIbase计算器实现精准预测：①场景化选择自动加载计费规则；②输入需求实时生成动态成本矩阵；③智能规避四大隐性成本（长文本衰减补偿/区域差价预警等）。跨境电商案例显示，使用工具后成本降低60%。核心观点：在AI时代，成本控制能力已成为企业核心竞争力。

AI预算计算模型成本控制 GPT-4计费
荐首超长视频，只是红果的起点

红果，又一次创造历史。 Questmobile的数据显示，抖音集团旗下免费短剧APP红果2025年6月的月活达到2.1亿，同比增长179%，并超过2亿月活的优酷。这意味着，短剧APP第一次超越长视频APP。近年来，“爱优腾”对短剧的态度有了微妙的变化，从“长短之争”的剑拔弩张演化为“取长补短”的协同联动，却依然无法阻拦红果。毋庸置疑，红果正走在高歌猛进的道路上。

短剧APP 红果月活

今日大家都在搜的词：

热文

3 天
7天

AI日报：智谱Realtime、4V、Air系列模型发布；Vidu2.0上线10秒生成短片；xAI上线Grok网页版

荐AI日报：智谱AI发布AutoGLM 2.0；腾讯元宝接入腾讯视频；字节发布开源大语言模型 Seed-OSS

马斯克母亲发帖支持儿子：演示Grok视频生成功能

荐AI日报：B站测试AI视频工具花生AI；腾讯发布多模态模型Large-Vision；昆仑万维开源Skywork UniPic 2.0

荐AI日报：阿里开源Qwen-Image-Edit；淘宝“AI万能搜”功能灰度测试；小红书发布DynamicFace人脸生成技术

荐告别反复横跳，我用一张画布给AI视频创作配上了一条“流水线”

大模型技术赋能声音创作：逗哥配音引领AI语音合成新浪潮‌

荐AI日报：DeepSeek V3.1正式发布；企业微信5.0推出全新AI能力；快手 Klear-Reasoner 模型成功登顶

长视频自己的音乐节：从一个人刷片，到七万人狂欢

如何用3分钟精准计算AI大模型成本？避免生成一篇万字文章就超支？

荐首超长视频，只是红果的起点

今日大家都在搜的词：

热文

华为首款鸿蒙MateTV发布支持灵犀触控交互等功能

罗永浩官宣明日将公布TBT项目号称九年磨一面

《黑神话:钟馗》先导预告公布游戏科学宣布《黑神话:钟馗》官网

REDMI Note 15 Pro+首搭自研澎湃T1S芯片

AI日报：DeepSeek V3.1正式发布；企业微信5.0推出全新AI能力；

黑神话官号更名系列游戏将开启宏大篇章

泡泡玛特王宁：本周将发布迷你版LABUBU

AI日报：智谱AI发布AutoGLM 2.0；腾讯元宝接入腾讯视频；字节发

REDMI Note 15 Pro+将首发第四代骁龙7s

曝iPhone18放弃相机按钮因用户使用频率不高

华为首款鸿蒙MateTV发布支持灵犀触控交互等功能

60岁李国庆谈再婚：妻子是“白月光” 年轻时2次爱而不得

罗永浩官宣明日将公布TBT项目号称九年磨一面

《黑神话:钟馗》先导预告公布游戏科学宣布《黑神话:钟馗》官网

REDMI Note 15系列定档将于8月21日发布

AI日报：腾讯推音效生成工具AudioGenie；阿里推智能体WebWatch

REDMI Note 15 Pro+首搭自研澎湃T1S芯片

AI日报：阿里开源Qwen-Image-Edit；淘宝“AI万能搜”功能灰度测

AI日报：DeepSeek V3.1正式发布；企业微信5.0推出全新AI能力；

转战播客赛道！罗永浩微博改名“罗永浩的十字路口”

站长商机