首页 > 传媒 > 关键词  > 视频生成技术最新资讯  > 正文

放大招!百度复旦视觉生成模型Hallo2或将落地数字人等场景

2024-10-25 13:39 · 稿源: 站长之家用户

近日,百度联合复旦大学发布Hallo2,一个可以生成长达数小时且分辨率为4K的人物动画的视觉模型。Hallo2 目前已经在GitHub平台开源,供全球开发者免费使用和研究,预计将促进视频生成技术的广泛应用和发展。

Hallo2 发布后在海外引发了不小的震动。有人惊叹视频生成的长度和分辨率,也有老用户从Hallo首先代模型就被圈粉。

还有对Hallo2 开源模型和代码的认可。

Hallo2 备受关注,很重要一个原因是百度和复旦的研究团队解决了人像视频生成一个很大的痛点:如何提升视频生成的时长和质量。

一直以来,生成高质量的人物动画需要耗费大量的时间和人力成本。而百度与复旦联合发布的Hallo2 的出现,有望彻底改变这一现状,为数字人、电影制作、虚拟助手、游戏开发等领域带来革命性的变化。这不同于Sora等AI视频生成模型遭遇到的发展瓶颈,Hallo2 模型解决的问题更垂直,可落地空间更大。

Hallo2 是目前头个实现长达一小时、4K分辨率的音频驱动人像动画生成模型。通过创新的图像块丢弃、噪声增强和时间对齐等技术,Hallo2 解决了长时视频生成中的外观漂移和视觉不一致问题,支持灵活的语音与文本控制,生成质量达到业内领先水平。

Hallo2 继承了前代Hallo模型的创新框架,继续采用基于扩散的生成模型和分层音频驱动视觉合成模块,提高了音频与视觉输出之间的同步精度,并经过改进使得各部分的协同作用更加有效,增强了生成动画的质量和真实感。此外,Hallo2 不仅在图像和视频的质量方面有了显著提升,而且大幅增加了动作的丰富性和多样性,可以说为AI驱动的肖像图像动画领域树立了新的标杆。

有行业专家表示,Hallo2 的出现,标志着音频驱动的肖像图像动画技术迈入了新的发展阶段。百度基于长期的视觉技术积累,正在瞄准行业痛点进行针对性研究和场景落地,不仅为开发者提供了强大的工具,也为未来各种应用场景下的动画形象创作带来了新的可能性。

目前Hallo2 模型已在GitHub上开源,项目地址:https://fudan-generative-vision.github.io/hallo2/#/。

另据悉,除视觉模型外,作为中国比较大的AI公司,百度将在 11 月 12 日召开百度世界大会2024,展现更多AI方面的应用和技术进展。大会将围绕大模型和AI应用带来五大亮点,除百度创始人李彦宏领衔的主题演讲外,还有100+AI原生应用发布、四场主题分论坛、30+公开课和 5000 平米AI展区,全方位展示AI应用的落地成果。大会目前已开放免费报名通道,可通过大会官网报名参会。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • PK本尊,百度电商新解数字人

    6月15日晚,罗永浩数字人在百度电商完成首场直播,该场直播GMV突破5500万元,数据超过了5月23日罗永浩本人在百度电商直播时的GMV。 进一步对比两场直播,可以看到很多有趣的细节。 “先本尊,后替身”的两场直播带货说明百度电商在过去两年时间内已完成基础建设。百度优选在接受采访时提到,“我们在GMV上没有压力,百度优选作为电商行业的新玩家,历史包袱并不多,

  • 数字人老罗也要交个朋友!“罗永浩数字人”将于15日亮相百度电商

    罗永浩今日在微博宣布自己的数字人”将在6月15日亮相百度电商直播。 罗永浩称这次直播就两件事儿:人虽然是我的数字人,但货还是老罗严选的好货;价格还是实惠厚道,数字人老罗也要交个朋友。 罗永浩解释:最近自己发现头部带货主播基本没做过数字人,于是就让百度给自己做一个,本周日晚17:00就开始带货。” 他表示:虽然相信百度的技术底子,但他还是不放心,

  • 「6月30日AI日报」百度开源文心大模型4.5系列;通义千问发布多模态生成模型Qwen VLo

    AI日报精选:1)百度开源文心大模型4.5系列,含10款新模型,性能优异;2)通义千问发布多模态模型Qwen-VL,支持图文交互;3)阿里开源3亿参数多模态模型Ovis-U1;4)华为开源盘古7B稠密和72B混合专家模型;5)美图MOKI推出AI创意广告功能,一键生成专业视频;6)谷歌Gemini 2.5 Pro API重新免费开放;7)豆瓣上线"深入研究"AI功能;8)小米"AI百宝箱"结束内测;9)北京智研院开源多模态系统OmniGen2;10)知乎升级"直答"知识库功能。

  • 淘宝闪购放大招:用500亿补贴砸向市场!

    ​7月2日,淘宝闪购正式宣布启动“500亿元补贴计划”,在未来12个月内,平台将直补消费者及商家共500亿元。 对于即时零售生态而言,这是近期最具分量的一颗“深水炸弹”。对于淘宝而言,则想在“即时零售”上趁机完成一次组合式翻盘。

  • 百度任罗永浩为“慧播星”首席体验官 将再造10万数字人主播

    近日,罗永浩数字人”在百度电商开启直播首秀。 据百度提供的数据显示,数字人直播间开播仅26分钟,GMV便超过罗永浩真人直播1小时的成交额,最终以7小时5500万元的战绩收官。 据统计,90%的网络用户在观看直播后评价都非常正向,且纷纷表示数字人直播与真人直播已真假难辨”。 不过,也有网友评论:还是不能完全替代罗老师”。 为验证AI主播 真人IP”混合模式的商�

  • 华为影像放大招!Pura 80支持实时拍摄调色:新手也能拍大片

    华为Pura 80系列将于6月10日发布,作为主打影像的旗舰,华为已连续多日为新机影像功能预热。 今日,华为终端官微发布Pura 80系列最新预热短片,展示了影像另一个大招实时配色调色。 从短片可以看出,Pura 80系列在拍摄时可实时查看滤镜成片效果,拍摄画面依次切换至胶片风、电影风、动漫风。 视频中不同风格的数字编号不断变化,似乎也在暗示华为Pura 80将支持滤镜自定�

  • AI日报:百度发布“绘想”平台与MuseSteamer;阿里音频驱动全身数字人模型OmniAvatar

    【AI日报】今日AI领域重要动态:1.开源语音大模型Step-Audio-AQAA发布,实现音频到语音的端到端自然转换;2.百度推出"绘想"平台与MuseSteamer,通过AI一键生成专业级视频;3.浙大与阿里联合发布OmniAvatar,音频驱动数字人技术取得突破;4.百度搜索迎十年来最大改版,新增智能框、百看和AI助手功能;5.xAI开发者控制台新增Grok4及Grok4Code引用,预示新一代AI模型即将发布;6.Gemin

  • 华为Pura 80系列放大招!首发小艺看世界,随时随地陪用户探索世界

    华为Pura80系列新机发布,AI功能全面升级。核心亮点包括: 1. "小艺看世界"功能:支持实时视觉交互,可识别5000+景点并主动讲解,提供拍照打卡建议,还能根据场景创作诗歌文案 2. 连续翻译功能:实现屏幕内边浏览边翻译,支持网页和文档全篇翻译,打破语言障碍 3. 智能生活助手:覆盖100+场景的穿搭建议,综合天气、行程等数据提供专业方案 4. 无障碍设计:特别优化视障辅助功能,如电梯楼层语音指引 新机通过多模态大模型能力,让AI助手成为懂用户需求的"全能旅伴",在出行、翻译、生活等场景提供实时专业的智慧服务。

  • 双第一!百度智能云领跑2025上半年大模型中标市场

    2025年上半年,全球AI产业迎来关键拐点,多模态理解、深度逻辑推理等核心能力实现重大突破。大模型加速渗透产业核心场景,推动AI从通用能力向深度行业应用转变。我国大模型项目呈现爆发式增长,中标项目累计1810个,金额突破64亿元。百度智能云表现突出,以48个中标项目和5.1亿元金额稳居"双第一",在金融、能源、政务等重点行业持续领先。行业趋势表明,大模型市场正从"通用竞争"迈向"行业深耕"阶段,技术实力与落地能力成为关键。百度智能云依托领先的大模型技术与全栈智能基础设施,助力企业高效部署应用AI,目前已有65%央企选择与其合作。在能源、交通、金融等领域,百度打造了多个行业标杆案例,显著提升业务效率。

  • 百度Apollo“星火计划”再扩圈:向北京工商大学捐赠自动驾驶车辆,未来将走进更多学校及科研机构

    6月15日,百度Apollo向北京工商大学计算机与人工智能学院捐赠自动驾驶车辆及全套配套设备,包括开放平台使用权和教学系统搭建支持。此次捐赠将助力该校在自动驾驶领域的科研教育、人才培养和学科竞赛。百度智能驾驶事业群组高管表示,Apollo平台为高校提供真实产业案例和多样化赛事,推动产学研协同发展。北京工商大学校领导指出,将依托Apollo平台开展自动驾驶课程建设、前沿技术研究和真实场景验证。百度自2017年起持续投入自动驾驶教育,今年3月启动"星火计划",已覆盖全国400多所院校,培养复合型人才。