复旦携手腾讯推出说话人视频生成工具DICE-Talk，备情感表达

2025-05-16 14:49 · 来源： AIbase基地

由复旦大学与腾讯联合研发的DICE-Talk说话人视频生成工具于近日正式发布，以其卓越的情感表达能力和逼真的人物表现引发行业热议。AIbase通过整合社交媒体最新动态及公开信息，为您深度解析这一技术突破的亮点与潜力。

DICE-Talk的核心创新在于其身份-情感分离处理机制。通过将说话人的身份特征（如面部细节、肤色）与情感表达(表情、语气)解耦，DICE-Talk确保在情感变化时人物外观保持高度一致，避免了传统生成工具中常见的“表情跳变”问题。其协同情感处理技术进一步实现了不同情感间的自然过渡，例如从喜悦到惊讶的动态切换，呈现出接近真人表演的流畅效果。

DICE-Talk 的核心在于其能够解构身份信息并协同情感生成。这意味着，该技术不仅能够保留人物的特征，还能根据需求赋予其不同的情感表现，如快乐、生气、惊讶等。用户只需上传一张肖像图片和一段音频，系统便可自动生成相应情感的动态视频。

DICE-Talk 的生成视频展示了多种情感状态，包括中性、快乐、生气和惊讶等。每种情感表现都具有高度的真实性和表现力，用户可以通过简单的操作，获得生动的情感肖像，适用于影视制作、游戏开发以及社交媒体等多个领域。

为了顺利运行 DICE-Talk，建议用户配备至少20GB 显存的 GPU，并使用独立的 Python3.10环境。同时，用户需确保安装 FFmpeg 及相应版本的 PyTorch。安装完成后，用户可以通过简单的命令运行演示，体验技术带来的视觉盛宴。

使用 DICE-Talk 非常简单。用户只需上传一张图像和一段音频，并选择所需的情感类型，系统将生成对应的视频。用户还可以调整身份保持和情感生成的强度，满足个性化需求。此外，DICE-Talk 还提供了图形用户界面，使操作更加直观和友好。

项目：https://github.com/toto222/DICE-Talk

相关推荐

腾讯混元视频生成工具全新开源：人物不会“变脸” 物体不会“漂移”

腾讯混元5月9日宣布推出开源的多模态定制化视频生成工具HunyuanCustom。该工具基于混元视频生成大模型打造，支持文本、图像、音频等多模态输入，能生成高质量定制视频。主要功能包括：单/多主体视频生成、视频配音、局部编辑等，在保持主体一致性的同时可灵活调整场景和动作。适用于广告、电商、影视等场景，如快速更换商品背景、制作数字人视频等。目前单主体生成功能已开源，其他功能将于5月陆续开放。用户只需上传图片和文字描述即可生成连贯自然的视频内容。

多模态视频生成腾讯混元 HunyuanCustom
荐AI日报：扣子空间开放测试；腾讯混元开源视频生成工具HunyuanCustom；阿里开源大模型搜索引擎ZeroSearch

本文汇总了近期AI领域多项重要进展：1)扣子空间开放测试，无需邀请码即可体验AI协作平台；2)腾讯推出HunyuanCustom视频生成工具，实现音视频同步编辑；3)阿里巴巴ZeroSearch技术降低AI训练成本88%；4)OpenAI新增GitHub连接器，强化代码分析功能；5)联想发布天禧个人超级智能体，具备感知交互能力；6)OpenAI在亚洲推出数据驻留计划；7)Multiverse发布全球首款AI生成多人游戏；8)秘塔AI上线"讲题"功能辅助家长辅导；9)Genspark推出智能电子表格工具AI Sheets；10)Google Gemini API新增缓存功能可节省75%成本；11)PixVerse v4视频生成速度质量双提升；12)快手推出内容净化器KuaiMod；13)英伟达开源新一代OCR代码推理模型。这些创新覆盖AI应用、开发工具、成本优化等多个维度，展现了AI技术的快速发展和广泛应用。

AI产品人工智能技术趋势
豆包视频生成模型Seedance 1.0 lite发布：“迅速生成影视级的视频”

火山引擎在FORCE LINK AI创新巡展上发布多款AI模型升级产品：1）Seedance 1.0 lite视频生成模型，支持5-10秒480P/720P视频生成，具备影视级画质和生成速度优势，适用于电商广告、影视创作等场景；2）豆包1.5视觉深度思考模型，仅20B参数但具备多模态理解能力，在60项基准测试中38项达SOTA水平；3）升级版豆包音乐模型，新增英文歌曲创作功能，并能根据视频内容自动适配BGM。目前这些模型已在火山方舟平台和豆包APP上线。

AI模型升级视频生成技术火山引擎发布
持续霸榜！可灵2.0模型登顶全球视频生成大模型榜单

快手旗下可灵AI 2.0模型在权威AI评测中表现优异，以1124分超越自研1.6版本，连续三个月蝉联全球图生视频领域冠军。4月15日发布的2.0大师版在视频质量、语义理解和画面美学等核心指标持续领先行业。数据显示，自2023年6月上线以来，可灵AI全球用户突破2200万，月活激增25倍，累计生成视频1.68亿个、图片3.44亿张。商业化方面，其单月流水已超千万元，并与伊利、vivo等头部品牌达成深度合作，展现出AI视频生成技术的广阔商业前景。
视频生成模型Vidu Q1怎么用？Vidu Q1官网是什么？

国产视频生成大模型Vidu Q1在性能、价格和功能上实现重大突破。该模型由生数科技推出，在VBench评测中超越Sora等国内外顶尖模型，支持1080p高清视频生成，每秒价格低至3毛钱。其首尾帧功能仅需两张图即可实现电影级运镜效果，支持多元风格生成和48kHz高采样率混音功能。Vidu Q1已深度赋能影视、广告、动漫等行业，大幅降低创作门槛。

国产视频生成 Vidu Q1
可灵AI开启视频生成2.0时代！全球用户数已突破2200万

4 月 15 日，快手可灵AI在北京中关村国际创新中心举行“灵感成真”2. 0 模型发布会，宣布基座模型再次升级，面向全球正式发布可灵2. 0 视频生成模型及可图2. 0 图像生成模型。

可灵2.0 可灵AI 快手
荐AI日报：GPT-4.1正式上线ChatGPT；阿里通义万相Wan2.1-VACE开源；可灵大模型视频生成量约占30%份额

本文报道了AI领域最新动态：1)阿里通义万相开源视频编辑统一模型VACE；2)OpenAI发布GPT-4.1增强编码能力；3)Stability AI推出超轻量341M文字转语音模型；4)快手可灵视频生成模型占据30%市场份额；5)微软WizardLM团队整体加入腾讯混元大模型研发体系；6)腾讯宣布混元图像2.0将于5月16日发布；7)上海成立人工智能标识生态联盟；8)Lightricks发布13B参数视频生成模型LTX-Video；9)谷歌DeepMind推出AlphaEvolve优化AI训练速度；10)腾讯元宝浏览器插件上线Chrome平台。这些进展展示了AI技术在视频处理、大模型、语音合成等领域的快速发展。

人工智能视频编辑开源项目
游戏为媒，灵犀互娱助力传统文化创新表达

灵犀互娱通过游戏创新推动传统文化传播，旗下《如鸟》手游与扬州非遗珍宝馆合作，将游戏中的经典纹样复刻为雕版印刷作品展出，展现传统技艺精髓；《三国志·战略版》联合文旅部门推出纪录片《重走蜀道运粮路》，还原三国历史场景，并举办线下活动促进文旅融合。公司以"游戏+"理念，将剪纸、糖画等非遗艺术融入游戏体验，为年轻人提供兼具文化内涵与现代娱乐的游戏产品。灵犀互娱CEO樊路远表示，公司将持续拥抱AI技术，支持年轻制作人创新，打造面向全球市场的高品质游戏，推动中国传统文化数字化表达。

传统文化数字技术游戏产业
李想AI Talk第二季来了：理想VLA司机大模型是从动物到人类的进化

在这期间，李想分享了他对人工智能的最新思考，以及包含智能驾驶和理想同学在内的人工智能技术的最新进展，并宣布基于自研基座大模型Mind GPT的理想同学从车机进入手机，App已于12月27日全量上线。
兼具新奇玩法与个性表达三星Galaxy A56 5G成年轻人的智能新宠

在追求个性与创新的时代，一款能够彰显潮流品味并满足多元需求的智能手机无疑成为了年轻人手中的必备单品。三星作为科技领域的佼佼者，再次以敏锐的洞察力和前沿的技术力，为年轻用户量身打造了集时尚外观、智慧功能与强劲性能于一身的新品——三星GalaxyA56 5G。

智能手机三星GalaxyA56 5G手机

今日大家都在搜的词：

热文

3 天
7天

复旦携手腾讯推出说话人视频生成工具DICE-Talk，备情感表达

腾讯混元视频生成工具全新开源：人物不会“变脸” 物体不会“漂移”

荐AI日报：扣子空间开放测试；腾讯混元开源视频生成工具HunyuanCustom；阿里开源大模型搜索引擎ZeroSearch

豆包视频生成模型Seedance 1.0 lite发布：“迅速生成影视级的视频”

持续霸榜！可灵2.0模型登顶全球视频生成大模型榜单

视频生成模型Vidu Q1怎么用？Vidu Q1官网是什么？

可灵AI开启视频生成2.0时代！全球用户数已突破2200万

荐AI日报：GPT-4.1正式上线ChatGPT；阿里通义万相Wan2.1-VACE开源；可灵大模型视频生成量约占30%份额

游戏为媒，灵犀互娱助力传统文化创新表达

李想AI Talk第二季来了：理想VLA司机大模型是从动物到人类的进化

兼具新奇玩法与个性表达三星Galaxy A56 5G成年轻人的智能新宠

今日大家都在搜的词：

热文

42岁程序员因AI被裁，失业一年，现蜗居房车，靠跑腿维生

日产 N7 电动车在中国创下新纪录，18 天订单突破 1 万台

苹果 AI 太落伍？他们需要从对手那里“复制”这三个功能

谷歌刚修复了一个高危 Chrome 漏洞，可被用于劫持账户

报告显示：苹果仍是全球最有价值的品牌！

Noyb指控Meta再次违反GDPR，或面临2000亿欧元赔偿

Anthropic 的律师因 Claude 编造法律引文被迫道歉

仅用三张图像即可生成 3D 场景，苹果新 AI 模型“很惊人”

AI侵权纠纷愈演愈烈，特朗普罢免美国版权主管

奥特曼：使用 ChatGPT 的方式，暴露了你的年龄！

在由人类创造的“AI驱动”的世界里，人类该何去何从？

三星、LG本月开始为iPhone 17批量生产OLED面板

2027 年太晚了？随着竞争加剧，iPhone 已失去光彩

C++创始人：需要改变的不是语言，而是开发者的思维方式！

42岁程序员因AI被裁，失业一年，现蜗居房车，靠跑腿维生

四年来，软银集团首次实现年度盈利，重振投资者信心

日产 N7 电动车在中国创下新纪录，18 天订单突破 1 万台

站长商机