首页 > 传媒 > 关键词  > 视频生成技术最新资讯  > 正文

放大招!百度复旦视觉生成模型Hallo2或将落地数字人等场景

2024-10-25 13:39 · 稿源: 站长之家用户

近日,百度联合复旦大学发布Hallo2,一个可以生成长达数小时且分辨率为4K的人物动画的视觉模型。Hallo2 目前已经在GitHub平台开源,供全球开发者免费使用和研究,预计将促进视频生成技术的广泛应用和发展。

Hallo2 发布后在海外引发了不小的震动。有人惊叹视频生成的长度和分辨率,也有老用户从Hallo首先代模型就被圈粉。

还有对Hallo2 开源模型和代码的认可。

Hallo2 备受关注,很重要一个原因是百度和复旦的研究团队解决了人像视频生成一个很大的痛点:如何提升视频生成的时长和质量。

一直以来,生成高质量的人物动画需要耗费大量的时间和人力成本。而百度与复旦联合发布的Hallo2 的出现,有望彻底改变这一现状,为数字人、电影制作、虚拟助手、游戏开发等领域带来革命性的变化。这不同于Sora等AI视频生成模型遭遇到的发展瓶颈,Hallo2 模型解决的问题更垂直,可落地空间更大。

Hallo2 是目前头个实现长达一小时、4K分辨率的音频驱动人像动画生成模型。通过创新的图像块丢弃、噪声增强和时间对齐等技术,Hallo2 解决了长时视频生成中的外观漂移和视觉不一致问题,支持灵活的语音与文本控制,生成质量达到业内领先水平。

Hallo2 继承了前代Hallo模型的创新框架,继续采用基于扩散的生成模型和分层音频驱动视觉合成模块,提高了音频与视觉输出之间的同步精度,并经过改进使得各部分的协同作用更加有效,增强了生成动画的质量和真实感。此外,Hallo2 不仅在图像和视频的质量方面有了显著提升,而且大幅增加了动作的丰富性和多样性,可以说为AI驱动的肖像图像动画领域树立了新的标杆。

有行业专家表示,Hallo2 的出现,标志着音频驱动的肖像图像动画技术迈入了新的发展阶段。百度基于长期的视觉技术积累,正在瞄准行业痛点进行针对性研究和场景落地,不仅为开发者提供了强大的工具,也为未来各种应用场景下的动画形象创作带来了新的可能性。

目前Hallo2 模型已在GitHub上开源,项目地址:https://fudan-generative-vision.github.io/hallo2/#/。

另据悉,除视觉模型外,作为中国比较大的AI公司,百度将在 11 月 12 日召开百度世界大会2024,展现更多AI方面的应用和技术进展。大会将围绕大模型和AI应用带来五大亮点,除百度创始人李彦宏领衔的主题演讲外,还有100+AI原生应用发布、四场主题分论坛、30+公开课和 5000 平米AI展区,全方位展示AI应用的落地成果。大会目前已开放免费报名通道,可通过大会官网报名参会。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 淘宝直播请call赵露思

    今年的暑假大戏,赵露思直播告一段落。 截至目前,距离她上次公开直播已经过去了十余天,她的社交动态也基本停留在这一刻暂未更新。就在8月19日直播中,赵露思首次表态,表示“现在很愿意做网红”,这一宣言并非偶然,就在前一天,她注销了拥有3119万粉丝的微博账号,彻底切断传统明星的流量锚点。

  • AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

    AI日报栏目每日更新AI领域热点内容,聚焦开发者需求。本期重点包括:阶跃星辰发布端到端语音大模型Step-Audio2 mini,在多项基准测试中表现优异;9月1日起AI生成内容需强制标识;美团推出开源大模型LongCat;上海AI实验室发布多模态大模型InternVL3.5;腾讯ARC团队推出音频生成模型AudioStory;OpenAI发布实时语音模型GPT-realtime;Meta与UCSD合作推出DeepConf技术;xAI代码库遭窃事件;阿里巴巴Qwen团队发布GUI自动化框架;微软推出Copilot Labs实验中心;小红书自动化工具xiaohongshu-mcp上线。

  • All-in-One驱动:快鹭科技办公引擎的整合创新与优势解析

    快鸭科技以“All-in-One”为核心,依托AI Agent技术,提供一站式数智办公服务。通过整合产品矩阵、技术体系和服务网络,覆盖全流程办公需求,包括低代码平台、会议系统等,支持多行业定制化方案。其技术融合与协同化体系,助力企业实现高效数字化转型,提升运营效率。

  • AI日报:字节视频模型Waver 1.0发布;百度AI搜索APP“梯子AI”发布;谷歌推全新Gemini 2.5 Flash图像编辑模型

    本文汇总了AI领域最新动态:谷歌推出Gemini 2.5 Flash图像编辑模型,字节发布Waver 1.0视频生成工具;百度“梯子AI”提供无广告搜索;文心快码新增终端编码功能;腾讯游戏VISVISE工具集提升动画制作效率;自动驾驶配送机器人RM5进军外卖行业;DeepSeek V3.1出现字符Bug已修复;谷歌翻译升级实时同传和AI陪练;全球首现AI勒索软件PromptLock威胁网络安全;Anthropic推出Chrome浏览器AI助手Claude。

  • 欢迎来到客厅wall时代:你的客厅,远比你想象中更适合100吋

    文章探讨100英寸电视的观看体验,指出传统观念认为大尺寸电视需大客厅,但实际关键在于观看距离而非房屋面积。只要距离大于3米,即可获得沉浸式体验。通过技术分析,4K分辨率在3米距离下画面清晰,不会出现颗粒感。海信E8Q Pro等旗舰产品通过先进芯片和屏幕技术,解决了画质和光晕问题,确保近距离观看的舒适与清晰。结论是心动就别犹豫,百寸电视是通往新视界的“任意门”。

  • 降低创作门槛!爱诗科技新一代生成式大模型加速AI视频大众化

    爱诗科技8月27日发布新一代AI视频生成模型PixVerse V5,实现秒级高质量视频生成,支持360P至1080P分辨率。新模型在真实度、灵活性及生成速度上显著提升,覆盖人物、二次元、商业广告等多场景创作。同步上线Agent创作助手,降低使用门槛,用户无需专业技巧即可一键生成专业级视频。该技术推动AI视频从专业工具走向大众化应用,加速行业落地。

  • AI日报:智谱AI发布AutoGLM 2.0;腾讯元宝接入腾讯视频;字节发布开源大语言模型 Seed-OSS

    本期AI日报聚焦多项AI技术突破:智谱发布革命性语音代理AutoGLM 2.0,实现全平台语音操控;腾讯元宝接入视频平台提升观影便捷性;字节跳动开源大模型Seed-OSS专注长文本处理;速卖通AI代理助力新品推广效率翻倍;微软测试Copilot智能文件搜索功能;Liquid AI推出低延迟视觉语言模型LFM2-VL;OpenAI月收入首破10亿美元;谷歌Pixel 10系列全面升级AI功能,包括情感识别和实时翻译;Pixel Buds Pro 2引入AI手势控制;ElevenLabs发布支持70+语言的文本转语音API。

  • 从中国工厂到中东豪宅!海信RGB-Mini LED电视引千万粉丝博主探厂打call

    中国高端电视在中东市场表现强劲,海信电视凭借RGB-Mini LED等创新技术成为当地热门科技产品。中东博主实地探访海信研发中心,深入了解ULED、AI画质芯片等核心技术。海信UX系列电视采用三原色独立背光,突破传统显示限制,实现精准色彩控制,色域覆盖率达97% BT.2020。该产品搭载自研芯片,支持高精度色彩管理,推动全球电视行业进入RGB多基色显示新时代。海信计划在2025年德国IFA展发布重磅消息,加速RGB-Mini LED技术市场化进程。

  • 问道未有穷期 星海即是归途 | 2025百度商业AI技术创新大赛圆满收官

    2025百度商业AI技术创新大赛圆满落幕,聚焦AI技术与商业实践深度融合。赛事吸引2500多支队伍参与,覆盖广告生成式序列化推荐、视频生成推理优化等三大赛道。高校团队表现亮眼,重庆邮电大学、西安电子科技大学等获一等奖。大赛推动产教融合,展现AI在商业应用的前沿突破,助力青年创新者实现技术思维转变,共同期待AI赋能个性化表达与创意平权未来。

  • 自动化浏览器控制领域工具深度对比:NXNOS、TARS与Fellou性能与成本

    本文对比三款自动化浏览器控制工具:NXNOS、Agent+TARS和Fellou。从企业背景、技术架构、稳定性实测和硬件成本四个维度分析,NXNOS在复杂场景容错和长期运行稳定性上表现突出,硬件门槛低;Agent+TARS侧重跨设备自动化但资源需求高;Fellou适合轻量任务但复杂场景适配弱。建议用户根据场景复杂度、并发需求和预算选择,无绝对优劣,只有适用性差异。

今日大家都在搜的词: