首页 > 业界 > 关键词  > Hedra最新资讯  > 正文

AI日报:Hedra图转说话视频免费开放;Deepmind发布超牛自动视频配音技术V2A;美图WHEE V2正式上线;开源版Sora可一键生成720p高清视频

2024-06-19 15:37 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

1、Hedra的 Character-1开放使用

Hedra的Character-1开放使用,为创作者提供了通过文本和图片生成说话和唱歌视频的神器,开启了创作革命。它不仅是工具,更是一个全新的创作平台,让每个人都能拥有无限的视频创作机会。

【AiBase提要:】

⭐️ 动态视频生成:上传照片并配音频,即可让人物生动说话或唱歌。

⭐️ 多平台兼容:无论桌面还是移动设备,用户皆可轻松使用。

⭐️ 高质量保证:表情、姿态和语音同步,效果逼真令人满意。

详情链接:https://top.aibase.com/tool/hedra

2、Deepmind视频转音频技术V2A:实现自动为视频配乐、配音

谷歌Deepmind发布了V2A技术,利用视频像素和文本提示生成丰富的音轨,实现同步视听生成。用户可通过文字描述引导音频输出,系统采用自回归和扩散方法生成音频,确保与视频内容完美同步。训练过程中使用AI生成的注释帮助模型理解音频事件与视觉场景关联。尽管存在唇形同步挑战,V2A技术将接受严格评估测试后向公众开放。

【AiBase提要:】

🔊 自动为视频配乐、配音

🎶 利用视频像素和文本提示生成丰富音轨

🤖 训练过程中使用AI生成的注释

详情链接:https://top.aibase.com/tool/deepmind-v2a

3、B 站开源轻量级 AI 语言模型 Index-1.9B 模型

B 站最新开源的 Index-1.9B 模型引起了广泛关注,该模型包含基座模型、对照组和对话模型,具有19亿非词嵌入参数量,在多个评测基准上表现领先。

image.png

【AiBase提要:】

🔍 Index-1.9B base: 基座模型具有19亿非词嵌入参数量,在2.8T中英文语料上预训练,领先同级别模型。

🔍 Index-1.9B pure: 对照组与基座模型相同,但过滤了指令相关数据以验证对benchmark的影响。

🔍 Index-1.9B chat: 基于base模型通过SFT和DPO对齐后的对话模型,引入互联网社区语料,聊天趣味性更强。

详情链接:https://top.aibase.com/tool/index-1-9b

4、美图WHEE V2正式上线

美图公司推出全新AI改图编辑器WHEE V2版本,集合多种实用功能并融入AI技术,为用户提供便捷高效的一站式处理体验。新增AI绘画和AI改图功能,丰富用户编辑选择,支持多类型素材创意呈现。智能选择和提示词功能便利用户自然修改,支持自定义图片尺寸、图层内容,多种形式扩图。具备可视化多图层、精准语义识别、多元风格和细节控制,实现个性化高质量图像处理。

image.png

【AiBase提要:】

✨ 新增AI绘画和AI改图功能,丰富用户编辑选择,支持多类型素材创意呈现。

💡 智能选择和提示词功能便利用户自然修改,支持自定义图片尺寸、图层内容,多种形式扩图。

🎨 具备可视化多图层、精准语义识别、多元风格和细节控制,实现个性化高质量图像处理。

5、潞晨Open-Sora团队实现720p高清视频质量和生成时长突破

潞晨Open-Sora团队在720p高清视频质量和生成时长上取得了突破性进展,开源项目让视频生成变得简单,受到社区热烈欢迎。英伟达入股的AI公司Lambda Labs也基于Open-Sora模型权重打造数字乐高宇宙,开启创意新天地。技术报告深度剖析了模型训练核心和关键,解决视频模型训练痛点,提升生成质量和速度。

【AiBase提要:】

⚙️ Open-Sora团队实现720p高清视频质量和生成时长突破,开源项目简化视频生成流程

🌟 Lambda Labs基于Open-Sora模型权重打造数字乐高宇宙,创意无限

🔬 技术报告揭示模型训练核心细节,解决视频模型训练痛点,提升生成质量和速度

详情链接:https://github.com/hpcaitech/Open-Sora

6、百度曦灵数字人平台升级 支持文生 3D 数字人、音色克隆等功能

百度智能云曦灵数字人平台即将迎来重大升级,提供高效低成本的2D/3D数字人生成,全面打通直播、短视频、对话等多个场景,大幅提升用户体验。曦灵平台展现出令人瞩目的数字人生成能力,快速精准地生成逼真的数字人,为企业、文旅、娱乐等领域带来全新IP创造可能。

image.png

【AiBase提要:】

🌟 高效低成本的2D/3D数字人生成,提升用户体验。

🎨 快速精准生成逼真的数字人,为多个领域带来IP创造可能。

🔊 提供音色克隆功能,生成定制音色用于数字人的播报和内容生产。

7、Meta发布多款模型:多模态模型Chameleon、文本生成音乐模型JASCO、音频水印技术AudioSeal

Meta最近发布了多项研究成果,包括多模态模型Chameleon、文本生成音乐模型JASCO、音频水印技术AudioSeal等,为AI领域带来了新的技术突破和应用前景。这些成果将推动AI技术的发展和应用,具有重要意义。

image.png

【AiBase提要:】

🌟 Meta发布了多模态模型Chameleon,支持处理文本和图像混合输入输出,提供新的解决方案。

🎶 新的语言模型训练方法Multi-Token Prediction提高了模型能力和训练效率。

🔊 文本生成音乐模型JASCO能接受各种条件输入,提供更好、更灵活的音乐控制。

详情链接:https://top.aibase.com/tool/meta-chameleonMulti-Token Prediction

8、谷歌推字母表生成器GenType 可用于创作封面艺术字体

GenType是谷歌推出的实验性产品,通过Imagen2模型驱动,用户可以创造个性化的字母形式,用于书写各种内容,特别适合制作标题或封面艺术。该工具提供了简单直观的操作界面,让用户快速上手,激发创造力和想象力。用户可以分享保存生成的字母表图片,并在在线画廊中浏览其他用户的作品,获取灵感和创意。

【AiBase提要:】

🎨 个性化字母创造: 用户可以输入任何提示,GenType转化为独特的字母表,展现个人创意。

🖌 艺术创作工具: GenType不仅是生成器,还是艺术创作工具,让用户创造无限可能的字母艺术。

📷 分享与保存: 提供方便的分享和保存选项,用户可将字母表保存为PNG格式图片,在社交媒体上分享

详情链接:https://top.aibase.com/tool/gentype

9、强得很!英伟达超越微软成为全球最有价值公司

英伟达股价飙升,超越微软、苹果和谷歌,成为全球市值最高的公司。公司计划推出新的Blackwell GPU架构,首席执行官表示将是世界上最强大的芯片,并每年发布新的AI芯片。英伟达在2024年股价上涨160%,市值达到3.335万亿美元。

【AiBase提要:】

📈 英伟达超越微软、苹果和谷歌,成为全球市值最高的公司。

💻 英伟达计划推出Blackwell GPU架构,首席执行官称将是世界上最强大的芯片,每年发布新的AI芯片。

💰 英伟达在2024年股价上涨160%,市值达到3.335万亿美元。

10、苹果宣布推出新的人工智能功能后 为开发者推出“AI 培训”

苹果公司宣布推出新的人工智能培训课程,面向开发者学院的学生、导师以及校友等。这标志着苹果在AI技术领域的开放态度和重视程度逐渐增加。

【AiBase提要:】

🍎 苹果公司推出新的人工智能培训课程,专注于培养学生的专业编程技能。

📚 新课程将教授如何在苹果设备上构建、训练和部署机器学习模型。

💡 苹果的AI工具将被集成到多个平台,包括Xcode,帮助开发者更智能地编写代码。

11、Luma AI的Dream Machine生成作品被指涉嫌抄袭迪士尼IP

Luma发布的Dream Machine视频生成工具引发了关于模型透明度和数据来源的质疑,特别是涉嫌抄袭迪士尼作品。这引发了人们对这类模型最大的关注点之一,缺乏透明度。

image.png

【AiBase提要:】

🔍 模型透明度和数据来源引发质疑,是否按照迪士尼风格创作?

🚫 视频中出现的角色被指涉嫌抄袭迪士尼皮克斯作品,引发争议

💡 Dream Machine被吹捧为电影制作未来,提供高质量逼真镜头创作

12、AI画师接单被“抓包” 小红书博主“鉴Ai”视频获赞2.9万

小红书博主“天线嫂嫂(内裤大王)”在约画时发现画师使用AI技术,引发社交媒体关注。画师未提供线稿,博主怀疑作品为AI制作,揭露画稿盗图。AI绘画技术逼真度提高,难以区分人类和AI作品。AI技术发展带来版权和真实性挑战。

image.png

【AiBase提要:】

🔍 小红书博主发现画师使用AI技术,引发关注和讨论。

🎨 画师未提供线稿,博主怀疑作品为AI制作,揭露画稿盗图。

🤖 AI绘画技术逼真度提高,难以区分人类和AI作品。

详情:https://www.chinaz.com/ainews/9662.shtml

13、Snap 在 Augmented World Expo 上展示实时设备端图像扩散模型

Snap 在 Augmented World Expo 上展示了早期版本的实时设备端图像扩散模型,为 AR 创作者设计了生成式 AI 工具。该模型体积小且快速,能实时重新渲染帧。Snap 的团队致力加速机器学习模型,计划推广给创作者。Bobby Murphy 表示,这标志着增强现实迈入新方向,重新思考 AR 创造方式。Lens Studio5.0 提供新的生成式 AI 工具,帮助开发者更快创建 AR 效果,节省时间。

image.png

【AiBase提要:】

🔍 Snap 在 AWE 展示实时设备端图像扩散模型,为 AR 创作者设计生成式 AI 工具。

⚡ 模型体积小且快速,能实时重新渲染帧,Snap 团队致力加速机器学习模型。

🎨 Lens Studio5.0 提供新生成式 AI 工具,帮助开发者更快创建 AR 效果,节省时间。

14、扎心!一团队负责人用ChatGPT取代了60名员工 最后自己也被解雇了

人工智能在工作场所的影响逐渐显现,一名负责内容创作团队的领导被ChatGPT取代后最终也被解雇,引发思考人工智能对就业市场的影响。

【AiBase提要:】

💔 人工智能替代人类工作的现实

🤖 ChatGPT取代人类团队进行内容创作

📉 作家、软件开发人员需求下降21%

15、ChatGPT等模型疯狂训练,2026年或迎来AI界“数据荒”

最近Epochai发布的研究报告警示AI界可能面临数据枯竭危机。随着大模型如ChatGPT消耗公开训练数据,数据可能在2026年到2032年间耗尽。报告提出四种新方法应对数据荒,包括合成数据、多模态学习、私有数据利用和与真实世界交互学习。

【AiBase提要:】

🔥 大模型如ChatGPT消耗公开训练数据,可能导致数据在2026年到2032年间耗尽。

🌟 Epochai提出四种新方法,包括合成数据、多模态学习、私有数据利用和与真实世界交互学习。

💡 合成数据可能存在质量参差不齐、过拟合等问题,但是是解决数据荒的一种途径。

16、L4GM:可在几秒钟内将视频目标对象生成4D高斯模型

研究团队提出了名为L4GM的大规模4D高斯重建模型,能从单视角视频输入生成动画对象,实现令人印象深刻效果。模型基于创新性数据集和简化设计,短时间内完成单向传递,保证高质量输出。

image.png

【AiBase提要:】

🔑 创新性数据集和简化设计实现短时间内完成单向传递

🔑 生成4D对象,展示高质量动画物体

🔑 构建多视角视频数据集,训练插值模型提高帧速率

详情链接:https://top.aibase.com/tool/l4gm

举报

  • 相关推荐
  • AI简历教程!用 deepseek 一键生成质量简历

    本文介绍如何利用AI工具Deepseek快速制作专业简历。传统简历制作依赖WPS模板或作图软件,过程繁琐。现在通过Deepseek平台,只需输入自然语言指令(如工作经验、技能等关键信息),系统即可自动生成排版精美的HTML版简历,还能转换为PDF格式。操作流程分三步:1.访问官网输入需求指令;2.查看并运行生成的HTML代码;3.保存文件或转为PDF。该工具特别适合求职者快速制作突出个人优势的专业简历,大幅提升求职效率。

  • DeepSeek + Kimi一键生成质量PPT

    文章介绍如何用两个免费AI工具快速制作PPT:先用微信版DeepSeek生成大纲,再用Kimi智能助手一键生成PPT。操作步骤包括:1)在微信搜索DeepSeek,输入需求生成结构化大纲;2)访问Kimi网页版,将大纲粘贴至PPT助手功能;3)选择模板样式,一键生成PPT。该方法适用于教师备课、学生汇报、职场报告等多种场景,能自动完成从构思到排版的全部流程,高效且效果惊艳。

  • AI日报DeepSeek开源R1-0528;字节发布像Agent小云雀AI;可灵2.1重磅上线

    本期AI日报聚焦多项AI领域突破:1)DeepSeek发布R1-0528模型,支持128K上下文且性能媲美GPT-4;2)字节推出"小云雀AI"图像创作工具;3)可画2.1版本价格降65%性能提升;4)Opera发布全球首款AI浏览器Neon;5)Meta推出多模态空间理解模型;6)北大团队研发ZeroSearch框架降低大模型训练成本88%;7)字节推出AI视频剪辑应用"剪小映";8)MotionPro实现40ms/帧精准视频控制;9)xAI与Telegram达成3亿美元合作部署Grok聊天机器人;10)OpenAI重组架构为IPO铺路;11)像素蛋糕"方糖大模型"获国内首个影像行业备案;12)Paper2Poster实现论文自动转海报;13)Resemble AI开源TTS模型性能比肩ElevenLabs;14)蚂蚁集团开源对标GPT-4o的多模态模型Ming-lite-omni。

  • AI日报DeepSeek入选2025年度十大IP;快手推出AI作图工具 Poify;字节跳动开源代码模型Seed-Coder

    本文介绍了AI领域多项最新进展:1)快手推出电商AI作图工具Poify,提升商品展示效率;2)字节跳动开源8B参数代码模型Seed-Coder,展现强大编程能力;3)DeepSeek App入选2025全球十大IP;4)Claude AI新增网页搜索功能;5)苹果发布移动端视觉语言模型FastVLM;6)腾讯推出3D形状生成框架PrimitiveAnything;7)首个智能文档处理基准发布;8)谷歌Gemini2.5Pro实现6小时视频理解;9)研究显示简洁提问易致AI错误;10)首款AI智能浏览器Fellou发布;11)NVIDIA推出音频生成技术Audio-SDS;12)Kimi入驻小红书,转向内容深耕。这些创新展现了AI在电商、编程、多模态理解等领域的快速发展。

  • 如何使用 DeepSeek 生成客诉流程设计?

    文章介绍利用AI工具DeepSeek一键生成专业泳道图的方法。传统手动绘制流程耗时易错,现在只需输入指令,AI就能自动生成跨职能泳道图并标注SLA时间节点。该工具适合产品经理、客服主管等各类职场人士,能显著提升工作效率和图表质量。使用步骤:1.登录DeepSeek官网;2.输入生成指令;3.AI自动解析流程逻辑并生成标准化图表;4.支持SVG格式输出预览或下载。工具免费且操作简便。

  • 利用DeepSeek和豆包生成工作总结

    本文介绍如何利用AI工具快速撰写高质量工作总结。通过DeepSeek生成内容框架,再使用豆包填充具体内容,可大幅提升写作效率。操作步骤:1)在DeepSeek输入需求获取大纲;2)将大纲粘贴至豆包生成详细内容;3)根据需要进行调整优化。该方法适用于教师学期总结、员工季度报告、项目总结等多种场景,能有效节省时间精力,提升工作效率。

  • AI日报:夸克发布“深度搜索”新品;Anthropic推Claude网络搜API;DeepSeek致谢腾讯技术团队;微软采用谷歌的A2A标准

    本期AI日报聚焦多个AI领域最新动态:1)阿里夸克发布"深度搜索"新品,采用先思考后检索模式解决复杂问题;2)Anthropic推出Claude网络搜索API,提升AI信息获取能力;3)谷歌升级Gemini 2.0 Flash图像生成功能,提升视觉质量和文字清晰度;4)DeepSeek感谢腾讯团队优化其开源通信框架,性能提升高达100%;5)苹果考虑在Safari引入AI搜索功能应对用户需求变化;6)HeyGen发布Avatar IV数字人�

  • AI日报:GPT-4.1正式上线ChatGPT;阿里通义万相Wan2.1-VACE开源;可灵大模型视频生成量约占30%份额

    本文报道了AI领域最新动态:1)阿里通义万相开源视频编辑统一模型VACE;2)OpenAI发布GPT-4.1增强编码能力;3)Stability AI推出超轻量341M文字转语音模型;4)快手可灵视频生成模型占据30%市场份额;5)微软WizardLM团队整体加入腾讯混元大模型研发体系;6)腾讯宣布混元图像2.0将于5月16日发布;7)上海成立人工智能标识生态联盟;8)Lightricks发布13B参数视频生成模型LTX-Video;9)谷歌DeepMind推出AlphaEvolve优化AI训练速度;10)腾讯元宝浏览器插件上线Chrome平台。这些进展展示了AI技术在视频处理、大模型、语音合成等领域的快速发展。

  • 如何用 DeepSeek 生成特定结构会议纪要

    本文介绍如何利用DeepSeek AI高效整理会议纪要。主要步骤包括:1)会议录音转文字(推荐使用"录咖"工具);2)登录DeepSeek官网输入指令,要求将会议记录按"决策事项/待办事项/风险预警"三部分结构化整理;3)检查优化生成的会议纪要。该方法能快速将杂乱会议内容转化为清晰文档,突出关键信息,提升工作效率。文中提供了具体操作流程和工具链接。

  • 如何使用 DeepSeek 生成商务谈判话术

    本文介绍如何利用DeepSeek AI工具在商务谈判中应对供应商压价。DeepSeek作为免费AI工具,可快速生成实用的谈判话术模板。操作流程包括:1.访问官网输入指令"模拟供应商压价场景,提供3种应对策略及话术模板";2.获取系统生成的3种专业应对方案。该工具能有效提升谈判效率,满足日常商务沟通需求,特别适合采购谈判场景使用。