首页 > 业界 > 关键词  > Hedra最新资讯  > 正文

Hedra保姆级教程:如何让你的照片开口说话还带表情

2024-06-20 16:18 · 稿源:aibase

最近,Hedra Labs推出了Character-1的研究预览版,该技术允许用户根据任意人物照片和语音内容生成个人说话和唱歌的动态视频。

想象一下,你上传一张人物照片,再配上任意的语音内容,瞬间就能生成一段动态视频,让照片中的人物仿佛有了生命,开始说话或者唱歌,而且唇形、表情、姿态都和语音内容完美匹配!是不是有点小激动呢?

Hedra Labs官方演示视频

主要特性和功能亮点:

  • 多平台兼容性:无论是桌面还是移动设备,用户都可以轻松使用Character-1。

  • 无限时长生成:目前开放预览版支持30秒的视频生成,如果H100供应充足,每60秒可生成90秒的内容。

  • 支持多种表达形式:Character-1不仅支持对话,还能处理歌唱和说唱等表达形式。

Hedra提供了一个用户友好的界面,即使是非专业人士也能快速上手。用户可以访问Hedra的官网,通过文字转语音功能或直接上传音频文件,输入角色描述,然后生成动态视频。

Hedra的AI技术确保了视频内容的高质量和逼真度,无论是人物的表情、姿态还是语音的同步性,都能达到令人满意的效果。

从官方提供的案例来看,Character-1可以完美演绎唱歌、演戏以及表现不同情绪的角色。该技术不仅限于人类角色,甚至还能生成表现丰富的无生命物体,只要这些物体具有明显的面部特征。

使用方法也非常简单,具体步骤如下:

打开hedra体验地址:https://top.aibase.com/tool/hedra

进入页面后可以看到这个操作界面

image.png

界面很简单,第一个框输入你的角色台词,并选择一个声音,当然如果你不想用生成的音频也可以导入自己的音频

image.png

在这里我简单输入一句“哈啰,这是由AIbase创建的说话视频,今天带大家体验一下Hedra,让视频生成变得像呼吸一样简单”。

然后在第二个框上传我想要说话的图片,这里上传一张我之前制作的美女写真。

image.png

没有现成图片的也可以直接在下面的文字框中输入你的角色,并点击创建来生成。

图片上传完成后,在第三个框下方点击生成视频即可。

image.png

下面是生成的视频效果:

可以看到,Hedra生成的说话视频,人物是比较灵动的,不是只有嘴巴动,身体的其他部位也会动,而且还会有表情。不过由于平台可供选择的声音很少,老外的口音和我的图片人物不是很搭,还有一个美中不足的是,生成后的视频要比我原图模糊了不少,希望平台后续提升一下画质。

这里我自己上传一段音频,音频我直接用剪映生成,选择了一个女生的音色,直接输入文本然后朗读。

image.png

重新测试一下:

选择导入音频

image.png

生成效果如下:

然后模糊的问题可以使用krea ai的视频增强功能解决,不过要注意,免费体验的,视频时长不能超过10秒,超过的只能自己裁剪一下了。而且帧率不要选太高,我选的60帧每秒,弄到一半要付费升级了,哭晕在厕所~

image.png

举报

  • 相关推荐
  • 滴滴会员焕新,连接消费的“大出行”样本

    会员体系如此多娇,引平台竞折腰。 今年起,不同类型的互联网平台加速会员体系建设。与早先的付费会员不同的是,这一轮会员没有付费“门票”。 免费逻辑的“积分&层级”会员体系重新定义了用户运营与平台的效率准绳。在平台重构会员体系的过程中,不同业态的加入将强化“权益激励-行为绑定-价值沉淀”闭环,而不同供给品类也会自行寻找合适的交易场景和流通路�

  • AI日报:智谱AI发布AutoGLM 2.0;腾讯元宝接入腾讯视频;字节发布开源大语言模型 Seed-OSS

    本期AI日报聚焦多项AI技术突破:智谱发布革命性语音代理AutoGLM 2.0,实现全平台语音操控;腾讯元宝接入视频平台提升观影便捷性;字节跳动开源大模型Seed-OSS专注长文本处理;速卖通AI代理助力新品推广效率翻倍;微软测试Copilot智能文件搜索功能;Liquid AI推出低延迟视觉语言模型LFM2-VL;OpenAI月收入首破10亿美元;谷歌Pixel 10系列全面升级AI功能,包括情感识别和实时翻译;Pixel Buds Pro 2引入AI手势控制;ElevenLabs发布支持70+语言的文本转语音API。

  • AI日报:B站测试AI视频工具花生AI;腾讯发布多模态模型Large-Vision;昆仑万维开源Skywork UniPic 2.0

    【AI日报】主要内容: 1. B站测试"花生AI"视频工具,3分钟可成片,同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0,实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI,苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision,支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐,仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新:恢复GPT-4o默认模式,为GPT-5引入多模式选择,优化交互体验

  • 小米电视怎么无线投屏?怎么搜索到设备?超全教程分享,新老电视都适用

    本文介绍小米电视投屏教程,推荐使用当贝投屏软件。详细讲解软件下载安装步骤,支持多种设备连接方式,兼容AirPlay、DLNA等协议。提供常见问题解决方案,如网络连接失败、画面卡顿等。新手也能轻松操作,实现流畅投屏体验,适用于观影、办公等多种场景。

  • 滴滴会员全新升级:五大类别 超20项会员权益

    近日,滴滴会员体系完成焕新升级,推出涵盖五大类别、超二十项权益的服务包。 升级后,滴滴会员权益从单一出行场景延伸至吃、住、行”全生活场景,通过跨界合作与权益互通为用户提供超值体验。 升级后的会员权益体系中,打车权益最为丰富。以V8会员为例,可享受月月领券最高省270元”无限次快速应答”每月1次免费升舱”等特权,其快速应答”服务年均能为用户节�

  • AI火花集|AI火花先锋添新力,拆解保险、客服、物联网AI落地实战

    AI正加速渗透产业,2025年全球AI投资预计达2000亿美元,年增长近翻倍。保险、电商客服、智能家居成为落地先锋。暖哇科技、云起未来、蜂助手分别聚焦保险理赔自动化、电商智能客服、5G+AI物联网,通过实战方案推动AI从概念验证走向规模化应用。面临数据价值陷阱、流通壁垒等挑战,企业需构建专业知识库并优化人机协同。未来AI将深入产业毛细血管,汇聚零散创新火花,�

  • 将AI大模型费用计算器作为战略工具:企业如何规避AI项目的成本陷阱

    AI项目规模化应用面临不可预测的运营成本挑战,尤其是大模型API调用费用难以精准预测,导致项目ROI计算失效。成本失控源于计费维度复杂、价格变动频繁及用户行为影响。领先企业通过成本管控前移,在项目可行性分析阶段引入AIbase等成本计算工具,实现成本可视化,支持技术选型和预算建模,从被动应对转向主动管理,提升AI应用的经济性和可持续竞争力。

  • 处暑养生指南:三星AI神 冰箱9系以AI之力 护航家庭健康饮食

    三星AI神·冰鲜9系冰箱通过AI智能大屏实现食材管理、天气提醒、食谱推荐等功能,搭载AI食材识别技术自动同步食材清单,支持语音交互简化操作。创新保鲜技术与UV净化系统确保食材新鲜卫生,631L大容量分区存储满足全家多样化需求。智能控温与节能设计提升使用体验,让秋季饮食更健康便捷。

  • 400亿美图,靠AI重生了

    今年以来股价暴涨超255%,市值重回400多亿,美图(1357.HK)这家老牌影像工具公司,在被资本市场遗忘多年后,正以一种极为凶猛的姿态重返牌桌。 在AIGC(生成式人工智能)千帆竞发、百模大战仍在烧钱换未来的混沌格局中,美图是将滚烫的AI概念,真正熬成了一碗利润浓汤的企业。半年净赚近4个亿、付费用户突破1500万的业绩,无疑证明它饮到了这波AI应用大爆发的“头啖汤

  • AI应用太烧钱?我们用一款精准的AI大模型费用计算器做出了清晰预算

    初创团队“智询未来”在开发AI问答应用时面临核心模型选择困境:GPT-4-turbo能力强但价高,Claude-3长文本处理优,Llama-3成本低但性能稍弱。通过AIbase成本计算器精准测算,发现Claude-3-Sonnet性价比最优,每月可省近4000元,还能通过优化提示词进一步降本15%。数据驱动的决策让团队将节省预算投入数据安全和提示词优化,凸显成本测算对初创企业技术选型的重要性。

今日大家都在搜的词: