首页 > AI头条  > 正文

字节发布了DreamActor-H1视频生成系统,只需输入商品和角色即可生成带货视频

2025-06-23 15:01 · 来源: AIbase基地

近日,字节跳动最新发布了DreamActor-H1视频生成系统,用户只需输入商品和角色照片,即可自动生成专业级带货视频,旨在通过采用扩散变换器(DiT)技术,解决现有技术在真实性和自然性方面的局限。

QQ20250623-145902.png

传统的视频生成方法常常无法同时保持人和产品的身份,导致演示效果不够真实,互动性也较差。这使得消费者在观看产品演示时,难以获得真实的购买感受。为了解决这一问题,DreamActor-H1 框架提出了一种创新的方法,采用成对的人机交互参考信息,并引入了一种额外的掩蔽交叉注意力机制。通过这些技术,框架能够更好地保持人机交互的身份特征和产品细节,例如产品的徽标和纹理。

此外,DreamActor-H1 利用 3D 身体网格模板和产品边界框来提供精确的动作引导,使得手势与产品位置之间的匹配变得更加直观。这样的设计使得用户在观看视频时,能够感受到更真实的互动体验。而且,框架还采用了结构化文本编码,增强了视频生成过程中对类别级语义的理解。这一技术特别适用于跨帧的小角度旋转变化,从而提升了 3D 模型的一致性。

在丰富的数据增强策略和混合数据集的支持下,DreamActor-H1 在生成高保真度的人机交互演示方面,表现出色。经过严格的测试和评估,研究团队发现,该框架在保持人和产品身份完整性以及生成逼真的演示动作方面,均优于现有的最先进技术。这一突破性的成果,将为数字营销和电子商务领域带来新的机遇,推动产品展示方式的变革。

DreamActor-H1 的推出不仅将为消费者提供更加真实和互动的购物体验,同时也为商家提供了更有效的产品展示工具。随着技术的不断进步,消费者在虚拟空间中的购物体验必将更加生动、真实、富有吸引力。无疑,DreamActor-H1 将成为数字营销领域的一颗新星,引领人机交互演示视频生成的新潮流。

地址:https://submit2025-dream.github.io/DreamActor-H1/

  • 相关推荐
  • 必应引入OpenAI的Sora视频生成器,完全免费使用

    微软表示:“Bing 视频生成器体现了我们让 AI 视频创作变得全民可及的努力。我们相信,创造力应当轻松且人人可用,从而助力你的探索与表达。”

  • Baidu Steamer-I2V推动视频生成技术突破,擎舵平台赋能原生创意营销

    百度推出全球领先的视频生成模型Baidu Steamer-I2V,以89.38%综合评分登顶VBench榜单。该模型通过精准画面控制、高清画质和中文语义优化,能将静态图像转化为连贯动态视频。百度营销平台迎来2周年,已服务超13万家企业,日均生产素材超10万+。在"AI驱动营销全链路升级"主题下,百度与核心代理商共同探讨AIGC技术突破与创意升级,推出"AI创"原生创意大赛。百度商业体系表示将持续巩固传统广告优势,同时突破创意边界,实现营销效果飞跃。未来百度将优化模型性能,拓展应用场景,推动营销行业迈向"一杯咖啡时间完成创意生产"的全智能化时代。

  • 多模态2025:技术路线“神仙打架”,视频生成冲上云霄

    一场大会,聚集了中国多模态大模型的“半壁江山”。 智源大会2025为期两天的论坛中,汇集了学界、创业公司和大厂等三方的热门选手,关于多模态的集中讨论达到了前所未有的热度。其中,创业公司就有爱诗科技、生数科技、Sand.ai、智象未来、Luma AI、智谱等六家公司创始人、CEO分享心得;隶属大厂队的字节、腾讯、百度的多模态技术负责人,以及学术界的人大和MIT(麻省�

  • AI日报:Midjourney重磅推出视频生成模型V1;OpenAI将在今年夏季发布GPT-5;谷歌推Search Live语音搜索功能

    本期AI日报聚焦多项AI领域重要进展:1) Midjourney推出首款视频生成模型V1,支持21秒视频生成;2) OpenAI CEO确认GPT-5将于今夏发布;3) Google上线语音对话搜索功能Search Live;4) OpenAI开源客户服务代理框架;5) MiniMax发布智能代理Agent;6) 恶意工具WormGPT出现新变种;7) OpenAI推出企业版ChatGPT折扣;8) DeepSite V2支持3D网页动画生成;9) AI工具可秒变PPT;10) 比亚迪与字节跳动合作开发动力电池技术;11) 马斯克否认xAI巨额亏损传闻。

  • AI日报:MiniMax推视频生成模型Hailuo 02;Cursor Pro取消500次请求限制;谷歌发布AI模型 Gemini 2.5 Flash-Lite

    本文汇总了AI领域最新动态:1)Cursor Pro取消500次请求限制;2)稀宇科技推出视频生成模型Hailuo02;3)谷歌发布轻量级AI模型Gemini2.5Flash-Lite;4)科大讯飞星火X1升级版7月上线;5)腾讯元宝推出AI编程模式;6)OpenAI将下架GPT-4.5 API;7)苹果Speech API转录速度超Whisper 55%;8)百度推出数字人互动直播间;9)Meta曾试图高薪挖角OpenAI人才;10)Krea1公测开放,解决"AI感"问题;11)特斯拉Grok车载AI助手即将上线;12)谷歌Gemini新增视频分析功能。

  • 豆包大模型1.6发布:全球第一梯队!可生成1080p高品质视频

    字节跳动旗下豆包大模型正式升级为1.6版,在推理、数学、指令遵循、Agent等方面的能力均有较大提升,同时豆包视频生成模型Seedance 1.0 pro、豆包语音播客模型也正式发布。 豆包大模型1.6包括三部分,分别是豆包1.6、豆包1.6-thinking、豆包1.6-flash。 其中,豆包1.6支持on/off/auto三种思考模式,豆包1.6-thinking强化了思考能力,支持多模态,在多个权威测评集上达到了全球第一梯队�

  • 如何用deepseek生成短视频脚本

    本文介绍如何利用DeepSeek工具快速生成30秒短视频脚本。该工具可根据用户需求,自动生成包含开场悬念、核心干货、反转情节和结尾互动的优质脚本。操作流程包括:1.登录DeepSeek官网;2.输入具体指令(如"生成洗发水广告脚本,需包含开场悬念+3个核心干货+结尾互动");3.检查并优化脚本内容;4.补充画面风格、背景音乐等细节。通过多次指令调整可获得更理想的脚本

  • 快手可灵AI上线2.1系列模型:生成5秒视频不到1分钟

    快手旗下可灵AI发布2.1系列模型,包含720p标准版和1080p高品质版,在性价比、生成速度和质量三大维度实现突破。新模型生成5秒视频仅需20-35灵感值,与上代保持相同成本;1080p视频生成时间不到1分钟,快于行业同级产品2-3倍。模型在动态表现、物理模拟和语义理解方面均有优化,人物动作更真实自然。可灵AI自发布以来发展迅猛,全球用户突破2200万,月活增长25倍,累计生成1.68亿视频和3.44亿图片。商业化进程加速,2025年Q1营收超1.5亿元人民币,展现强劲市场潜力。

  • Meta AI新增生成式AI视频编辑功能:秒换服装、场景

    Meta 宣布,将在Meta AI应用、Meta.AI网站和Edits应用上推出一项生成式AI视频编辑功能。 用户可通过50多种预设AI提示词,一键实现视频中服装、场景、光影等元素的智能变换。 Meta称,全新的AI视频编辑功能直观易用,用户无需任何视频编辑专业知识即可制作高质量的视频。首先,用户可将视频上传到Meta AI应用、Meta.AI网站或

  • iPad为何不运行macOS 苹果高管:macOS未对触摸屏做优化

    iPadOS 26带来了全新的应用视窗、下滑式菜单栏等功能,让iPad的操作体验更接近Mac,但苹果始终未让iPad运行macOS系统,其背后原因正式揭开。 苹果公司软件工程负责人Craig Federighi接受采访时称,iPadOS 26的新特性在生产力与简洁性之间取得了很好的平衡,macOS系统从未对触控屏做优化,我们要保留iPad最本质的简洁性,如果强行移植macOS,iPad将丧失其触控设备的独特价值。 Craig Fed

今日大家都在搜的词: