智谱新清影：模型全面升级、4K、任意比例、自带音效

2024-11-11 14:00 · 稿源：站长之家用户

11 月 8 日，智谱推出新清影：10s时长、4k、 60 帧超高清画质、任意尺寸，自带音效，以及更好人体动作和物理世界模拟。

3 个月前，作为国内头个面向公众开放的视频生成产品，清影上线清言App，只需一段指令或图片， 30 秒就能生成AI视频。为人类影视创作带来了更多创新玩法，如广告制作、短视频、表情包梗图等。

清影发布后不久，GLM技术团队先后开源了CogVideoX 2B和5B版本两个模型，可在消费级显卡上峰畅运行，性能领先的CogVideoX-5B模型自开源以来受到广泛的关注，并衍生出如CogVideoX-factory等大量的二次开发项目。

基于CogVideoX模型的比较新技术进展和智谱比较新推出的音效模型CogSound，新清影在以下 5 个方面实现了提升。

· 模型能力全面提升：在图生视频的质量、美学表现、运动合理性以及复杂提示词语义理解方面能力明显增强。

· 4K超高清分辨率：支持生成 10s、4K、 60 帧超高清视频，视觉体验拉到较好的，动态画面更加流畅。

· 可变比例：支持任意比例的图像生成视频，超宽画幅也能轻松Hold住，从而适应不同的播放需求。

· 多通道生成能力：同一指令/图片可以一次性生成 4 个视频。

· 带声效的AI视频：新清影可以生成与画面匹配的音效了。音效功能将很快在本月上线公测。

即日起，新清影在智谱清言App上线，为了支持广大开发者，智谱同时将CogVideoX v1.5-5B、CogVideoX v1.5-5B-I2V进行了开源。

生成视频将为影视工作者、短视频创作者提升产量、产能，在其生产流程中发挥重要作用。不到一年时间，生成视频技术在视频时长、生成速度、分辨率、一致性等方面已经显示出长足进步。新清影往前又迈进了一步，未来，智谱也将携手视觉中国等合作伙伴，基于更丰富的视觉内容，产出更好的AI生成视频工具。

“默片 Sora”进入“有声电影时代”

智谱认为真正的智能一定是多模态的，听觉、视觉、触觉等共同参与了人脑认知能力的形成，因此，智谱希望包括文字、图像、语音和视觉等模态在内的智谱多模态大模型矩阵，能够进一步提高大模型的应用和工具能力。

因此，GLM模型家族逐步从文字拓展至图片、视频、声音，以及音效。今天，GLM家族加入了新成员——音效模型CogSound和音乐模型CogMusic。即将上线与大家见面的音效模型CogSound能根据视频自动生成音效、节奏等音乐元素，它是基于GLM-4V的视频理解能力，能够准确识别并理解视频背后的语义和情感，在此基础上生成与之相匹配的音频内容，甚至生成复杂音效，如爆炸、水流、乐器、动物叫声、交通工具声等。

音效模型的出现能够实现视频与声音的同步创作。同时该模型在电影行业也具有广泛的应用前景，比如可以生成电影中的大规模战斗场景和灾难场景的声音，大大缩短了制作周期，降低了制作成本。

「CogVideoX + CogSound」由清影生成画面，音效模型配音

两周前，智谱刚刚发布比较新的GLM-4-Voice情感语音模型。今天，随着音效模型的加入，GLM大模型在声音模态领域实现了人声、音效、音乐的多链路布局，基于图像、视频和声音的多模态模型矩阵由此更加完整，意味着智谱在多模态和工具两个维度上都朝着AGI的目标迈出了一小步。

音效模型将于本月上线清言App，与新清影一起生成有声AI影片。智谱的理想状态是，只需一个好的创意，剩下的事AI都能辅助搞定，轻松将一个idea、一张图，变成一段自带bgm的影片。相信这个组合能给创作者和用户带来AI生视频的全新体验。

当前，AI生成视频用于影视创作仍需要多种不同的创作工具串联使用。但基于智谱多模态的比较新成果，实现这种一站式AI原生多模态工作流，这样的前景无疑是激动人心的。

（推广）

特别声明：以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布，本平台仅提供信息存储服务，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任，相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述法律文件后，将会依法依规核实信息，沟通删除相关内容或断开相关链接。

相关推荐

关键词：

降低创作门槛！爱诗科技新一代生成式大模型加速AI视频大众化

爱诗科技8月27日发布新一代AI视频生成模型PixVerse V5，实现秒级高质量视频生成，支持360P至1080P分辨率。新模型在真实度、灵活性及生成速度上显著提升，覆盖人物、二次元、商业广告等多场景创作。同步上线Agent创作助手，降低使用门槛，用户无需专业技巧即可一键生成专业级视频。该技术推动AI视频从专业工具走向大众化应用，加速行业落地。

AI视频生成 PixVerse V5
荐AI日报：智谱AI发布AutoGLM 2.0；腾讯元宝接入腾讯视频；字节发布开源大语言模型 Seed-OSS

本期AI日报聚焦多项AI技术突破：智谱发布革命性语音代理AutoGLM 2.0，实现全平台语音操控；腾讯元宝接入视频平台提升观影便捷性；字节跳动开源大模型Seed-OSS专注长文本处理；速卖通AI代理助力新品推广效率翻倍；微软测试Copilot智能文件搜索功能；Liquid AI推出低延迟视觉语言模型LFM2-VL；OpenAI月收入首破10亿美元；谷歌Pixel 10系列全面升级AI功能，包括情感识别和实时翻译；Pixel Buds Pro 2引入AI手势控制；ElevenLabs发布支持70+语言的文本转语音API。

AI产品 AutoGLM 2.0
大厂押注的AI和视频化，能成为播客的好出路吗？

长期在国内市场不温不火的播客赛道，正在焕发出越来越蓬勃的新机。 8月15日，自带流量和多重话题标签的罗永浩入驻B站，并宣布将开启一档视频播客节目《罗永浩的十字路口》，8月19日，罗永浩发布了第一条视频播客，与理想汽车创始人李想进行了近4小时的深度对话，一度引发热议，在B站内的观看量超230万。而由罗永浩掀起的这一波流量热潮背后，可以看出B站对于视频

播客罗永浩 B站
马斯克母亲发帖支持儿子：演示Grok视频生成功能

近日，马斯克母亲梅耶-马斯克发帖演示支持马斯克的Grok视频生成功能。她表示，这次我把手指放在了最近在X上发布的这张照片上，提示是用Grok制作视频”，现在自己的狗摇着尾巴了，自己玩得很开心。她还特别提示，这个视频由@grok Imagine制作。

马斯克 Grok 视频生成
荐AI日报：字节视频模型Waver 1.0发布；百度AI搜索APP“梯子AI”发布；谷歌推全新Gemini 2.5 Flash图像编辑模型

本文汇总了AI领域最新动态：谷歌推出Gemini 2.5 Flash图像编辑模型，字节发布Waver 1.0视频生成工具；百度“梯子AI”提供无广告搜索；文心快码新增终端编码功能；腾讯游戏VISVISE工具集提升动画制作效率；自动驾驶配送机器人RM5进军外卖行业；DeepSeek V3.1出现字符Bug已修复；谷歌翻译升级实时同传和AI陪练；全球首现AI勒索软件PromptLock威胁网络安全；Anthropic推出Chrome浏览器AI助手Claude。

AI Gemini 2.5
长虹电视如何把手机投屏到电视上？只需简单几步，就能享受高清投屏

文章主要介绍了长虹电视投屏常见问题及解决方案。投屏失败原因包括网络连接问题、投屏功能未开启、系统版本过低、第三方软件不兼容及硬件故障。建议优先使用第三方投屏软件如当贝投屏，支持多设备跨平台连接，具备动态调整画质功能保证流畅体验。最后详细说明了当贝投屏的下载安装方法及多屏共享操作步骤，帮助用户轻松实现无障碍投屏。

长虹电视投屏投屏失败原因投屏功能开启
小米澎湃OS 3新增贴贴分享：照片、视频无损高速传输支持与苹果互传

小米澎湃OS 3发布会今日下午正式召开，新系统在多方面进行优化升级。其中，小米澎湃OS 3对相册进行更新，相册首页及影集页，支持自定义排序，每个人都能拥有，更顺你心意的相册。同时，小米澎湃OS 3新增贴贴分享功能，照片、视频无损高速传输，直达相册，另外还支持文件、WLAN、网页、联系人、导航地址等。

小米澎湃OS 3 相册更新
阿里Wan2.2-S2V正式发布：一张图+一段音频即可生成人物动态视频

今晚，阿里云正式发布全新多模态视频生成模型通义万相Wan2.2-S2V，并宣布开源。 Wan2.2-S2V极大地简化了视频制作过程，仅需提供一张静态图片和一段音频，模型便能生成面部表情自然、口型与音频高度一致、肢体动作流畅丝滑的电影级数字人视频。支持分钟级长视频稳定生成，不止嘴动，手势、表情、姿态都能动。

视频生成模型通义万相数字人视频
荐“无限量”供应Claude，就是AI IDE们的百亿补贴

Anthropic于2025年7月28日宣布，将从8月28日起对Claude Code工具新增每周调用限额——因为少数重度用户全天候高频使用，一次使用成本甚至高达数万美元，远远超过普通订阅预期。同样在上个月，Cursor曾因其“I’ll keep it unlimited”的Pro收费模式悄然变更为计算tokens限制，导致大量用户抱怨“实际上并非无限”，纷纷在社群中吐槽，迫使公司CEO出面道歉、甚至给出退款补偿。这两�

文章搜索核心标签 AI工具
荐长视频自己的音乐节：从一个人刷片，到七万人狂欢

当夕阳余晖洒下，毛不易的歌词「一杯敬月光、一杯敬过往」在巨型竖屏出现，所有台下的合唱观众，感受到了一种强烈的共鸣。同一刻、在一起，体验同一种情绪，成了用户与腾讯视频之间的「独家记忆」。这是国内长视频平台首次把音乐节与内容紧密结合，通过一场线下活动，腾讯视频想要回应一个期待:为私密的、个人的线上观影行为，制造一种「共同在场感」。无�

文章搜索核心标签长视频平台

今日大家都在搜的词：

热文

3 天
7天

智谱新清影：模型全面升级、4K、任意比例、自带音效

降低创作门槛！爱诗科技新一代生成式大模型加速AI视频大众化

荐AI日报：智谱AI发布AutoGLM 2.0；腾讯元宝接入腾讯视频；字节发布开源大语言模型 Seed-OSS

大厂押注的AI和视频化，能成为播客的好出路吗？

马斯克母亲发帖支持儿子：演示Grok视频生成功能

荐AI日报：字节视频模型Waver 1.0发布；百度AI搜索APP“梯子AI”发布；谷歌推全新Gemini 2.5 Flash图像编辑模型

长虹电视如何把手机投屏到电视上？只需简单几步，就能享受高清投屏

小米澎湃OS 3新增贴贴分享：照片、视频无损高速传输支持与苹果互传

阿里Wan2.2-S2V正式发布：一张图+一段音频即可生成人物动态视频

荐“无限量”供应Claude，就是AI IDE们的百亿补贴

荐长视频自己的音乐节：从一个人刷片，到七万人狂欢

今日大家都在搜的词：

热文

首发iPhone 17系列！苹果Apple Store官方旗舰店入驻抖音商城

华为MatePad Mini外观公布支持蜂窝网络通话功能

特斯拉Model 3长续航后轮驱动版降价1万元售价25.95万起

小鹏汽车：8月共交付新车37709台单月交付量创历史新高

苹果上架翻新版Apple Pencil Pro售价849元

苹果首款折叠iPhone或不会采用屏下指纹将于明年发布

零跑汽车8月交付57066台增长超88%

小米汽车8月交付量超3万台全年交付量有望冲击42万

华为MatePad Mini官宣9月4日发布

2025民营企业500强揭晓：京东第一

SpaceX第10次试飞成功马斯克：星舰这次没有空中爆炸

小米澎湃OS3发布会官宣首批Beta版招募机型公布

今日七夕节微信 520 元大额红包限时上线

AI日报：字节视频模型Waver 1.0发布；百度AI搜索APP“梯子AI”

AI日报：字节OmniHuman-1.5发布；PixVerse V5模型上线；腾讯

realme真我15000mAh电池容量手机亮相

华为三折叠屏手机Mate XTs非凡大师上架开启预约

iPhone17标准版或上高刷苹果2025秋季发布会定档9月10日

站长商机