首页 > 业界 > 关键词  > Hedra最新资讯  > 正文

AI日报:Hedra图转说话视频免费开放;Deepmind发布超牛自动视频配音技术V2A;美图WHEE V2正式上线;开源版Sora可一键生成720p高清视频

2024-06-19 15:37 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

1、Hedra的 Character-1开放使用

Hedra的Character-1开放使用,为创作者提供了通过文本和图片生成说话和唱歌视频的神器,开启了创作革命。它不仅是工具,更是一个全新的创作平台,让每个人都能拥有无限的视频创作机会。

【AiBase提要:】

⭐️ 动态视频生成:上传照片并配音频,即可让人物生动说话或唱歌。

⭐️ 多平台兼容:无论桌面还是移动设备,用户皆可轻松使用。

⭐️ 高质量保证:表情、姿态和语音同步,效果逼真令人满意。

详情链接:https://top.aibase.com/tool/hedra

2、Deepmind视频转音频技术V2A:实现自动为视频配乐、配音

谷歌Deepmind发布了V2A技术,利用视频像素和文本提示生成丰富的音轨,实现同步视听生成。用户可通过文字描述引导音频输出,系统采用自回归和扩散方法生成音频,确保与视频内容完美同步。训练过程中使用AI生成的注释帮助模型理解音频事件与视觉场景关联。尽管存在唇形同步挑战,V2A技术将接受严格评估测试后向公众开放。

【AiBase提要:】

🔊 自动为视频配乐、配音

🎶 利用视频像素和文本提示生成丰富音轨

🤖 训练过程中使用AI生成的注释

详情链接:https://top.aibase.com/tool/deepmind-v2a

3、B 站开源轻量级 AI 语言模型 Index-1.9B 模型

B 站最新开源的 Index-1.9B 模型引起了广泛关注,该模型包含基座模型、对照组和对话模型,具有19亿非词嵌入参数量,在多个评测基准上表现领先。

image.png

【AiBase提要:】

🔍 Index-1.9B base: 基座模型具有19亿非词嵌入参数量,在2.8T中英文语料上预训练,领先同级别模型。

🔍 Index-1.9B pure: 对照组与基座模型相同,但过滤了指令相关数据以验证对benchmark的影响。

🔍 Index-1.9B chat: 基于base模型通过SFT和DPO对齐后的对话模型,引入互联网社区语料,聊天趣味性更强。

详情链接:https://top.aibase.com/tool/index-1-9b

4、美图WHEE V2正式上线

美图公司推出全新AI改图编辑器WHEE V2版本,集合多种实用功能并融入AI技术,为用户提供便捷高效的一站式处理体验。新增AI绘画和AI改图功能,丰富用户编辑选择,支持多类型素材创意呈现。智能选择和提示词功能便利用户自然修改,支持自定义图片尺寸、图层内容,多种形式扩图。具备可视化多图层、精准语义识别、多元风格和细节控制,实现个性化高质量图像处理。

image.png

【AiBase提要:】

✨ 新增AI绘画和AI改图功能,丰富用户编辑选择,支持多类型素材创意呈现。

💡 智能选择和提示词功能便利用户自然修改,支持自定义图片尺寸、图层内容,多种形式扩图。

🎨 具备可视化多图层、精准语义识别、多元风格和细节控制,实现个性化高质量图像处理。

5、潞晨Open-Sora团队实现720p高清视频质量和生成时长突破

潞晨Open-Sora团队在720p高清视频质量和生成时长上取得了突破性进展,开源项目让视频生成变得简单,受到社区热烈欢迎。英伟达入股的AI公司Lambda Labs也基于Open-Sora模型权重打造数字乐高宇宙,开启创意新天地。技术报告深度剖析了模型训练核心和关键,解决视频模型训练痛点,提升生成质量和速度。

【AiBase提要:】

⚙️ Open-Sora团队实现720p高清视频质量和生成时长突破,开源项目简化视频生成流程

🌟 Lambda Labs基于Open-Sora模型权重打造数字乐高宇宙,创意无限

🔬 技术报告揭示模型训练核心细节,解决视频模型训练痛点,提升生成质量和速度

详情链接:https://github.com/hpcaitech/Open-Sora

6、百度曦灵数字人平台升级 支持文生 3D 数字人、音色克隆等功能

百度智能云曦灵数字人平台即将迎来重大升级,提供高效低成本的2D/3D数字人生成,全面打通直播、短视频、对话等多个场景,大幅提升用户体验。曦灵平台展现出令人瞩目的数字人生成能力,快速精准地生成逼真的数字人,为企业、文旅、娱乐等领域带来全新IP创造可能。

image.png

【AiBase提要:】

🌟 高效低成本的2D/3D数字人生成,提升用户体验。

🎨 快速精准生成逼真的数字人,为多个领域带来IP创造可能。

🔊 提供音色克隆功能,生成定制音色用于数字人的播报和内容生产。

7、Meta发布多款模型:多模态模型Chameleon、文本生成音乐模型JASCO、音频水印技术AudioSeal

Meta最近发布了多项研究成果,包括多模态模型Chameleon、文本生成音乐模型JASCO、音频水印技术AudioSeal等,为AI领域带来了新的技术突破和应用前景。这些成果将推动AI技术的发展和应用,具有重要意义。

image.png

【AiBase提要:】

🌟 Meta发布了多模态模型Chameleon,支持处理文本和图像混合输入输出,提供新的解决方案。

🎶 新的语言模型训练方法Multi-Token Prediction提高了模型能力和训练效率。

🔊 文本生成音乐模型JASCO能接受各种条件输入,提供更好、更灵活的音乐控制。

详情链接:https://top.aibase.com/tool/meta-chameleonMulti-Token Prediction

8、谷歌推字母表生成器GenType 可用于创作封面艺术字体

GenType是谷歌推出的实验性产品,通过Imagen2模型驱动,用户可以创造个性化的字母形式,用于书写各种内容,特别适合制作标题或封面艺术。该工具提供了简单直观的操作界面,让用户快速上手,激发创造力和想象力。用户可以分享保存生成的字母表图片,并在在线画廊中浏览其他用户的作品,获取灵感和创意。

【AiBase提要:】

🎨 个性化字母创造: 用户可以输入任何提示,GenType转化为独特的字母表,展现个人创意。

🖌 艺术创作工具: GenType不仅是生成器,还是艺术创作工具,让用户创造无限可能的字母艺术。

📷 分享与保存: 提供方便的分享和保存选项,用户可将字母表保存为PNG格式图片,在社交媒体上分享

详情链接:https://top.aibase.com/tool/gentype

9、强得很!英伟达超越微软成为全球最有价值公司

英伟达股价飙升,超越微软、苹果和谷歌,成为全球市值最高的公司。公司计划推出新的Blackwell GPU架构,首席执行官表示将是世界上最强大的芯片,并每年发布新的AI芯片。英伟达在2024年股价上涨160%,市值达到3.335万亿美元。

【AiBase提要:】

📈 英伟达超越微软、苹果和谷歌,成为全球市值最高的公司。

💻 英伟达计划推出Blackwell GPU架构,首席执行官称将是世界上最强大的芯片,每年发布新的AI芯片。

💰 英伟达在2024年股价上涨160%,市值达到3.335万亿美元。

10、苹果宣布推出新的人工智能功能后 为开发者推出“AI 培训”

苹果公司宣布推出新的人工智能培训课程,面向开发者学院的学生、导师以及校友等。这标志着苹果在AI技术领域的开放态度和重视程度逐渐增加。

【AiBase提要:】

🍎 苹果公司推出新的人工智能培训课程,专注于培养学生的专业编程技能。

📚 新课程将教授如何在苹果设备上构建、训练和部署机器学习模型。

💡 苹果的AI工具将被集成到多个平台,包括Xcode,帮助开发者更智能地编写代码。

11、Luma AI的Dream Machine生成作品被指涉嫌抄袭迪士尼IP

Luma发布的Dream Machine视频生成工具引发了关于模型透明度和数据来源的质疑,特别是涉嫌抄袭迪士尼作品。这引发了人们对这类模型最大的关注点之一,缺乏透明度。

image.png

【AiBase提要:】

🔍 模型透明度和数据来源引发质疑,是否按照迪士尼风格创作?

🚫 视频中出现的角色被指涉嫌抄袭迪士尼皮克斯作品,引发争议

💡 Dream Machine被吹捧为电影制作未来,提供高质量逼真镜头创作

12、AI画师接单被“抓包” 小红书博主“鉴Ai”视频获赞2.9万

小红书博主“天线嫂嫂(内裤大王)”在约画时发现画师使用AI技术,引发社交媒体关注。画师未提供线稿,博主怀疑作品为AI制作,揭露画稿盗图。AI绘画技术逼真度提高,难以区分人类和AI作品。AI技术发展带来版权和真实性挑战。

image.png

【AiBase提要:】

🔍 小红书博主发现画师使用AI技术,引发关注和讨论。

🎨 画师未提供线稿,博主怀疑作品为AI制作,揭露画稿盗图。

🤖 AI绘画技术逼真度提高,难以区分人类和AI作品。

详情:https://www.chinaz.com/ainews/9662.shtml

13、Snap 在 Augmented World Expo 上展示实时设备端图像扩散模型

Snap 在 Augmented World Expo 上展示了早期版本的实时设备端图像扩散模型,为 AR 创作者设计了生成式 AI 工具。该模型体积小且快速,能实时重新渲染帧。Snap 的团队致力加速机器学习模型,计划推广给创作者。Bobby Murphy 表示,这标志着增强现实迈入新方向,重新思考 AR 创造方式。Lens Studio5.0 提供新的生成式 AI 工具,帮助开发者更快创建 AR 效果,节省时间。

image.png

【AiBase提要:】

🔍 Snap 在 AWE 展示实时设备端图像扩散模型,为 AR 创作者设计生成式 AI 工具。

⚡ 模型体积小且快速,能实时重新渲染帧,Snap 团队致力加速机器学习模型。

🎨 Lens Studio5.0 提供新生成式 AI 工具,帮助开发者更快创建 AR 效果,节省时间。

14、扎心!一团队负责人用ChatGPT取代了60名员工 最后自己也被解雇了

人工智能在工作场所的影响逐渐显现,一名负责内容创作团队的领导被ChatGPT取代后最终也被解雇,引发思考人工智能对就业市场的影响。

【AiBase提要:】

💔 人工智能替代人类工作的现实

🤖 ChatGPT取代人类团队进行内容创作

📉 作家、软件开发人员需求下降21%

15、ChatGPT等模型疯狂训练,2026年或迎来AI界“数据荒”

最近Epochai发布的研究报告警示AI界可能面临数据枯竭危机。随着大模型如ChatGPT消耗公开训练数据,数据可能在2026年到2032年间耗尽。报告提出四种新方法应对数据荒,包括合成数据、多模态学习、私有数据利用和与真实世界交互学习。

【AiBase提要:】

🔥 大模型如ChatGPT消耗公开训练数据,可能导致数据在2026年到2032年间耗尽。

🌟 Epochai提出四种新方法,包括合成数据、多模态学习、私有数据利用和与真实世界交互学习。

💡 合成数据可能存在质量参差不齐、过拟合等问题,但是是解决数据荒的一种途径。

16、L4GM:可在几秒钟内将视频目标对象生成4D高斯模型

研究团队提出了名为L4GM的大规模4D高斯重建模型,能从单视角视频输入生成动画对象,实现令人印象深刻效果。模型基于创新性数据集和简化设计,短时间内完成单向传递,保证高质量输出。

image.png

【AiBase提要:】

🔑 创新性数据集和简化设计实现短时间内完成单向传递

🔑 生成4D对象,展示高质量动画物体

🔑 构建多视角视频数据集,训练插值模型提高帧速率

详情链接:https://top.aibase.com/tool/l4gm

举报

  • 相关推荐
  • 大家在看
  • Prime Intellect:AI开发规模化的民主化平台

    Prime Intellect是一个致力于AI开发规模化民主化的平台,提供全球计算资源的发现、模型训练以及共同拥有智能创新的能力。它通过分布式训练跨集群,使得用户能够训练最前沿的模型,并且共同拥有由此产生的开放AI创新成果,包括语言模型和科学突破。

  • Zed:高性能、多人协作代码编辑器

    Zed是由Atom和Tree-sitter的创造者开发的高性能、多人协作代码编辑器,开源且集成了AI代码生成功能。它利用多核心CPU和GPU,实现即时启动、快速文件加载和响应键盘输入。Zed支持GitHub Copilot,并通过内置助手面板与模型进行对话式交互,以生成或重构代码。

  • AuraFlow:开源的基于流的文本到图像生成模型

    AuraFlow v0.1是一个完全开源的、基于流的文本到图像生成模型,它在GenEval上达到了最先进的结果。目前模型处于beta阶段,正在不断改进中,社区反馈至关重要。感谢两位工程师@cloneofsimo和@isidentical将此项目变为现实,以及为该项目奠定基础的研究人员。

  • 墨狐AI:短篇小说写作助手

    墨狐AI是一个专为短篇小说创作者设计的在线写作助手,它通过提供创意大纲、续写故事、生成剧情树和剧本创作等功能,帮助作者激发灵感,提高写作效率。产品背景信息显示,墨狐AI旨在解决创作者在创作过程中遇到的难题,如灵感枯竭或故事发展困难。目前,墨狐AI的定位是辅助工具,详情可访问官网查看更多介绍。

  • LLaVA-NeXT:大型多模态模型,处理多图像、视频和3D数据。

    LLaVA-NeXT是一个大型多模态模型,它通过统一的交错数据格式处理多图像、视频、3D和单图像数据,展示了在不同视觉数据模态上的联合训练能力。该模型在多图像基准测试中取得了领先的结果,并在不同场景中通过适当的数据混合提高了之前单独任务的性能或保持了性能。

  • 老鱼简历:在线制作简历,简单高效。

    老鱼简历是一个在线简历制作平台,提供多种简历模板,支持AI生成简历,帮助用户快速制作出专业且个性化的简历。用户可以根据自己的需求选择不同的模板,并通过简单的在线编辑完成简历的制作,支持下载为PDF或PNG格式,满足不同场景的求职需求。

  • Enchanted:与私有自托管语言模型对话的iOS/macOS应用

    Enchanted是一个开源的、兼容Ollama的macOS/iOS/visionOS应用,它允许用户与私有自托管的语言模型如Llama 2、Mistral、Vicuna等进行对话。它基本上是一个连接到私有模型的ChatGPT应用界面。Enchanted的目标是提供一个产品,允许在iOS生态系统(macOS、iOS、Watch、Vision Pro)的所有设备上提供无过滤、安全、私密和多模态的体验。

  • Logo Galleria:在线AI Logo制作,快速生成个性化标志。

    Logo Galleria是一个在线AI Logo制作平台,利用人工智能技术帮助用户快速生成个性化的标志设计。它通过用户输入的行业、风格等参数,提供定制化的标志设计方案,满足不同用户的设计需求。该平台的主要优点是操作简便、设计效率高,可广泛应用于品牌建设、产品包装等场景。

  • Afforai.com:AI驱动的参考文献管理助手

    Afforai是一个AI驱动的参考文献管理助手,旨在帮助研究人员管理、注释、引用论文,并以AI的可靠性进行文献综述。它提供了一个全新的研究材料存储方式,使用户能够专注于真正重要的事情。Afforai支持多种文档格式,包括DOI、URL、PDF等,并具有多种搜索模式,可以连接数百篇论文进行总结、比较和翻译。此外,Afforai还提供数据引用,使用户能够方便地核实信息来源,确保研究的可靠性。

  • Rodel Agent:集成聊天、文本转图像、文本转语音和机器翻译的桌面应用

    Rodel Agent 是一款集成了聊天、文本到图像、文本到语音以及机器翻译功能的Windows桌面应用程序。它支持当前主流的AI服务,为用户提供了卓越的桌面AI体验。该产品的主要优点包括强大的集成功能、用户友好的界面以及对主流AI服务的支持,能够显著提高用户的工作效率和创造力。

  • DictionaryByGPT4:一本由GPT4生成的英语单词书,覆盖8000+单词

    DictionaryByGPT4是一个由GPT4模型生成的英语单词学习工具,它通过分析超过8000个单词,为每个单词提供词义、例句、词根词缀、变形、文化背景、记忆技巧和小故事等全方位信息,帮助用户深入理解单词的来源、使用场景以及记忆方法。该产品特别适合需要提升英语词汇量和理解力的学习者。

  • gpt-frontend-code-gen:前端页面生成神器,提升开发效率

    gpt-frontend-code-gen 是一个基于 React 和 Vite 构建的前端项目,结合 Koa 后端服务,实现前端页面生成并预览的功能。它使用 GPT-4 模型,支持 Chakra UI 和 ShadcnUI 组件生成,允许开发者通过对话形式持续迭代和修改页面,直到达到满意的效果。

  • OpenDiLoCo:开源实现分布式低通信AI模型训练

    OpenDiLoCo是一个开源框架,用于实现和扩展DeepMind的分布式低通信(DiLoCo)方法,支持全球分布式AI模型训练。它通过提供可扩展的、去中心化的框架,使得在资源分散的地区也能高效地进行AI模型的训练,这对于推动AI技术的普及和创新具有重要意义。

  • SmartCrawl:将任何网站转化为AI驱动的API。

    SmartCrawl是一个创新的在线工具,它允许用户将任何网站转化为API,通过AI技术实现数据的自动化抓取和处理。这项技术对于需要从网站获取数据的开发者和企业来说非常重要,因为它简化了数据集成的过程,提高了效率。产品目前处于Beta测试阶段,用户可以通过加入等待名单来获取试用机会。

  • TF-ID:学术文献中表格和图表的识别工具

    TF-ID是一个由Yifei Hu创建的用于从学术论文中提取表格和图表的对象检测模型系列。这些模型基于microsoft/Florence-2检查点进行微调,提供带或不带标题文本的版本,旨在提高学术文献信息的可访问性和处理效率。

  • FlashAttention:快速且内存高效的精确注意力机制

    FlashAttention是一个开源的注意力机制库,专为深度学习中的Transformer模型设计,以提高计算效率和内存使用效率。它通过IO感知的方法优化了注意力计算,减少了内存占用,同时保持了精确的计算结果。FlashAttention-2进一步改进了并行性和工作分配,而FlashAttention-3针对Hopper GPU进行了优化,支持FP16和BF16数据类型。

  • aTrain:一款用于离线语音转录的GUI工具

    aTrain是由格拉茨大学商业分析与数据科学中心的研究人员开发,并由格拉茨知识中心的研究人员测试的一款离线语音转录工具。它利用最新的机器学习模型,无需上传任何数据即可自动转录语音录音。aTrain在《行为与实验金融学杂志》上发表的论文中被介绍,如果用于研究,请引用该论文。它支持Windows 10和11系统,用户可以通过Microsoft应用商店或BANDAS中心网站下载安装。对于Linux系统,提供了Wiki上的安装指南。aTrain的主要优点包括无需上传数据的隐私保护、高质量的转录质量、以及在本地计算机上的快速处理速度。

  • Graphcore:AI加速器,推动人工智能的突破

    Graphcore是一家专注于人工智能硬件加速器的公司,其产品主要面向需要高性能计算的人工智能领域。Graphcore的IPU(智能处理单元)技术为机器学习、深度学习等AI应用提供了强大的计算支持。公司的产品包括云端IPU、数据中心IPU以及Bow IPU处理器等,这些产品通过Poplar® Software进行优化,能够显著提升AI模型的训练和推理速度。Graphcore的产品和技术在金融、生物技术、科研等多个行业都有应用,帮助企业和研究机构加速AI项目的实验过程,提高效率。

  • SandTech:企业级AI和数据解决方案提供商

    Sand Technologies提供企业级AI和数据解决方案,帮助公司解决实际商业问题并实现有意义的结果。公司已在该领域深耕十年,开发定制AI算法和模型,构建在可大规模管理数据的平台和基础设施上。

  • Melodisco.so:AI 音乐播放器智能推荐,发现你的音乐新世界

    Melodisco是一个基于人工智能技术的音乐播放器,通过智能推荐算法,为用户提供个性化的音乐播放体验。它能够根据用户的喜好和听歌习惯,推荐适合的音乐,帮助用户发现新的音乐风格和艺术家。产品背景信息显示,Melodisco致力于为用户提供一个全新的音乐探索平台,无论是音乐爱好者还是寻找灵感的创作者,都能在这里找到适合自己的音乐。目前产品提供免费试用,具体价格和定位信息未在页面上明确展示。

今日大家都在搜的词:

热文

  • 3 天
  • 7天