首页 > 传媒 > 关键词  > AI视频生成最新资讯  > 正文

智谱新清影:模型全面升级、4K、任意比例、自带音效

2024-11-11 14:00 · 稿源: 站长之家用户

11 月 8 日,智谱推出新清影:10s时长、4k、 60 帧超高清画质、任意尺寸,自带音效,以及更好人体动作和物理世界模拟。

3 个月前,作为国内头个面向公众开放的视频生成产品,清影上线清言App,只需一段指令或图片, 30 秒就能生成AI视频。为人类影视创作带来了更多创新玩法,如广告制作、短视频、表情包梗图等。

清影发布后不久,GLM技术团队先后开源了CogVideoX 2B和5B版本两个模型,可在消费级显卡上峰畅运行,性能领先的CogVideoX-5B模型自开源以来受到广泛的关注,并衍生出如CogVideoX-factory等大量的二次开发项目。

基于CogVideoX模型的比较新技术进展和智谱比较新推出的音效模型CogSound,新清影在以下 5 个方面实现了提升。

· 模型能力全面提升:在图生视频的质量、美学表现、运动合理性以及复杂提示词语义理解方面能力明显增强。

· 4K超高清分辨率:支持生成 10s、4K、 60 帧超高清视频,视觉体验拉到较好的,动态画面更加流畅。

· 可变比例:支持任意比例的图像生成视频,超宽画幅也能轻松Hold住,从而适应不同的播放需求。

· 多通道生成能力:同一指令/图片可以一次性生成 4 个视频。

· 带声效的AI视频:新清影可以生成与画面匹配的音效了。音效功能将很快在本月上线公测。

即日起,新清影在智谱清言App上线,为了支持广大开发者,智谱同时将CogVideoX v1.5-5B、CogVideoX v1.5-5B-I2V进行了开源。

生成视频将为影视工作者、短视频创作者提升产量、产能,在其生产流程中发挥重要作用。不到一年时间,生成视频技术在视频时长、生成速度、分辨率、一致性等方面已经显示出长足进步。新清影往前又迈进了一步,未来,智谱也将携手视觉中国等合作伙伴,基于更丰富的视觉内容,产出更好的AI生成视频工具。

“默片 Sora”进入“有声电影时代”

智谱认为真正的智能一定是多模态的,听觉、视觉、触觉等共同参与了人脑认知能力的形成,因此,智谱希望包括文字、图像、语音和视觉等模态在内的智谱多模态大模型矩阵,能够进一步提高大模型的应用和工具能力。

因此,GLM模型家族逐步从文字拓展至图片、视频、声音,以及音效。今天,GLM家族加入了新成员——音效模型CogSound和音乐模型CogMusic。即将上线与大家见面的音效模型CogSound能根据视频自动生成音效、节奏等音乐元素,它是基于GLM-4V的视频理解能力,能够准确识别并理解视频背后的语义和情感,在此基础上生成与之相匹配的音频内容,甚至生成复杂音效,如爆炸、水流、乐器、动物叫声、交通工具声等。

音效模型的出现能够实现视频与声音的同步创作。同时该模型在电影行业也具有广泛的应用前景,比如可以生成电影中的大规模战斗场景和灾难场景的声音,大大缩短了制作周期,降低了制作成本。

「CogVideoX + CogSound」由清影生成画面,音效模型配音

两周前,智谱刚刚发布比较新的GLM-4-Voice情感语音模型。今天,随着音效模型的加入,GLM大模型在声音模态领域实现了人声、音效、音乐的多链路布局,基于图像、视频和声音的多模态模型矩阵由此更加完整,意味着智谱在多模态和工具两个维度上都朝着AGI的目标迈出了一小步。

音效模型将于本月上线清言App,与新清影一起生成有声AI影片。智谱的理想状态是,只需一个好的创意,剩下的事AI都能辅助搞定,轻松将一个idea、一张图,变成一段自带bgm的影片。相信这个组合能给创作者和用户带来AI生视频的全新体验。

当前,AI生成视频用于影视创作仍需要多种不同的创作工具串联使用。但基于智谱多模态的比较新成果,实现这种一站式AI原生多模态工作流,这样的前景无疑是激动人心的。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 云南人,如何统治短视频?

    ​当@云南BIGBANG 用夹杂彝腔的韩文说唱炸翻抖音,女团@土NE1身穿千禧服饰在苞米地跳着整齐的韩舞,当@卜拉克Ping克 把沙石矿地变成时尚秀场。 网友们不禁感叹,云南人玩短视频仿佛像喝水一样简单。 2022年“我是云南的”魔性洗脑;2023年“恐龙抗狼”甚至火到国外全球模仿;2024年云南人一句“这是什么地方啊?云南!”让全网一起来唱山歌;2025年,云南BIGBANG横空出世,还有云�

  • 可灵2.6模型上线!语音、音效与画面一键直出 重构AI视频创作工作流

    可灵视频生成2.6模型推出“音画同出”功能,彻底改变了传统AI视频“先无声画面、后人工配音”的工作流程。它能在单次生成中,输出包含自然语言、动作音效及环境氛围的完整视频,重构了AI视频创作工作流,极大提升创作效率。该模型在中文语音生成效果上保持全球领先,支持生成最长10秒的视频,可广泛应用于广告营销、自媒体、电商等内容创作场景。

  • AI日报:Medeo AI新版视频Agent上线:OpenAI正式发布GPT-5.2;钉钉AI功能大升级

    本期AI日报聚焦多款AI产品更新:Medeo AI新版视频Agent支持自然语言一键改剧本,降低创作门槛;钉钉8.1.10将AI融入职场沟通,提升效率;OpenAI低调上线GPT-5.2,延迟显著降低,逻辑一致性提升,并推出支持私有化部署的成人模式;迪士尼投资100亿美元与OpenAI合作,推动IP在生成式AI中的创新应用;谷歌Gemini Deep Research开放API,供开发者构建研究应用;Cohere推出Rerank 4,上下文窗口扩展至32K,提升企业搜索精度;拓竹科技推出3D手办生成器“印你”,依托腾讯混元3D模型,简化3D建模流程;谷歌NotebookLM升级,为Ultra会员提供更高权限,优化智能笔记体验。

  • 直播短视频构塑新大众文艺形态,快手分享AI时代文化传播新范式

    近日,《探索与争鸣》编辑部主办的“繁荣互联网条件下的新大众文艺”跨学科论坛在京举行。快手研究院院长蔡雄山发表主题演讲,指出直播短视频正重塑大众文艺新形态,成为文化传承与创新的重要载体。他以秦腔艺术团体“安万剧团”为例,展示传统艺术通过直播实现创新突破并带动地方经济发展。同时,快手村BA融合群众体育与地方文化,打造文体盛宴,累计直播观看人次突破13亿。快手通过“TBC”(技术、商业模式、内容)创新,赋能文旅产业,推动乡村文化生态重塑。随着AI技术深度融入,AIGC将进一步推动文艺内容提质增效,为乡村振兴注入新动能。

  • 追赶抖快,微信小店加码短视频带货

    当直播带货的生态趋于成熟,短视频作为电商“长效种草”的关键场景,成为平台竞争的新焦点。 近日,微信小店启动首个针对短视频带货的专项激励计划,以流量扶持与成长卡奖励双轮驱动,向商家与带货者抛出橄榄枝。 这一举措,是微信小店对短视频带货场景的补位,为微信电商生态的完善按下了加速键。

  • 2026,视频播客,尚能火否?

    ​2025年,视频播客成了内容行业的新风口。 B站率先下场,罗永浩、鲁豫、于谦等名人,以及晚点、商业漫谈、乱翻书等商业媒体或媒体人纷纷入局。 更有大量视频播客创作者,将内容同步分发至抖音、小红书、喜马拉雅,甚至微博、腾讯视频等平台。

  • AI日报:智谱清影2.0发布;深圳上线全国首个AI智能劳动仲裁系统;1688推跨境AI智能体“遨虾”

    本期AI日报聚焦多领域创新:智谱AI推出清影2.0,支持文本生成1080P视频并实现视听闭环;阿里巴巴1688发布跨境AI智能体“逍鲨”,优化供应链全流程;深圳上线全国首个AI劳动仲裁系统;昆仑万维升级音乐生成模型;无问芯穹获近5亿元融资加速AI基础设施研发;钉钉推出医疗专属AI助手;DeepSeek开源数学模型性能对标GPT-4o;Skywork上线智能海报设计工具,支持论文秒转高质量海报。

  • 智能硬件走进即构,共同提升实时音视频体验

    12月5日,即构科技与深圳市高科技企业协同创新促进会在深圳共同举办“走进即构+AI+智能硬件专场”活动。活动汇聚智能硬件领域创业者、从业者与技术探索者,通过技术探访、主题分享与深度对话,共同探讨AI硬件创新可能。即构科技展示了实时音视频核心技术及AI算法优化能力,并针对行业痛点提出针对性解决方案,包括超低延迟、复杂场景识别、广泛硬件适配及多模态与Agent生态支持。与会嘉宾围绕AI硬件落地中的技术瓶颈、场景拓展与成本控制等核心议题展开讨论,即构技术团队与行业同仁积极互动,为后续技术迭代与方案优化收集宝贵反馈。

  • B站辟谣观看所有视频均需会员:将追究造谣者法律责任

    近日,网络上流传一则关于哔哩哔哩(B站)的截图,内容声称自2026年3月1日起,B站平台所有视频类资源将需购买视频会员方可完整观看,且基础弹幕功能将同步绑定会员权益开放。此消息一出,立即在网络上引发了广泛关注和热议。

  • 看视频开倍速可能伤害大脑:记忆容量将不堪重负

    当下,追剧已成为众多年轻人休闲娱乐的常见方式,而令人惊讶的是,竟有高达76%的年轻人养成了倍速追剧的习惯。在大家将倍速追剧视为高效利用时间的方式时,神经科学家却发出了严肃的警告:这种看似高效的时间管理手段,可能正在悄然重塑我们的大脑结构。 从认知能力方面来看,倍速追剧存在诸多潜在危害。当播放速度超过2倍速时,大脑的工作记忆容量会不堪重负,�

今日大家都在搜的词: