首页 > 业界 > 关键词  > EMO最新资讯  > 正文

AI日报:阿里对口型视频项目EMO开启内测;苹果官宣端侧小模型OpenELM;Open-Sora偷偷升级;微信发布AI工具小微助手

2024-04-25 15:25 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

1、阿里对口型项目EMO开启内测 可将照片转为唱歌视频

阿里推出的对口型项目EMO开启内测,用户只需提供一张照片和语音模型即可定制数字人像,实现低成本高效率的数字人出镜体验。EMO模型具有简便操作、低成本、广泛适用性和自然表达等特点,通过强大的技术实现让用户体验到全新的数字人出镜体验。

image.png

【AiBase提要:】

🎤 简便操作: 用户只需提供一张照片和语音模型即可定制数字人像。

💰 低成本: EMO模型提供免费高效的解决方案,与其他产品相比成本更低。

🎨 广泛适用性: 不仅限于写实人像,还能生成3D模型和二次元漫画风格视频,满足不同用户需求。

内测申请地址:https://www.wjx.top/vm/exOVbr1.aspx#

2、苹果发布OpenELM小型AI模型

苹果发布了OpenELM,一系列小型AI模型,标志着公司在本地AI运行领域的重要进展。这些小型模型比大多数轻量级AI模型更小,适合在手机和笔记本等设备上运行。苹果暗示将AI引入iPhone等设备,展示了公司在人工智能领域的雄心。

image.png

【AiBase提要:】

⭐ OpenELM是一系列非常小的语言模型,在文本相关任务上表现高效。

⭐ OpenELM比大多数轻量级AI模型更小,分为不同规格,适合在各种设备上运行。

⭐ 苹果暗示AI功能将登陆公司设备,公司发布了多个AI模型,展示对AI领域的投入。

详情链接:https://top.aibase.com/tool/openelm

3、Open-Sora悄悄升级 支持16秒视频生成和720p分辨率

Open-Sora项目在开源社区悄悄更新,新增支持长达16秒的单镜头视频生成和720p分辨率,提供了多种视频生成需求的解决方案。技术报告详细介绍了新功能和模型架构,对STDiT架构进行了关键性改进,提高了训练稳定性和性能。项目在多阶段训练方法和统一的图生视频/视频生视频框架方面取得了显著进展。

image.png

【AiBase提要:】

🚀 Open-Sora新增支持16秒视频生成和720p分辨率,满足多种视频生成需求。

🔬 技术报告详细介绍了新功能和模型架构,改进了STDiT架构提高了训练稳定性和性能。

💡 项目采用多阶段训练方法和统一的图生视频/视频生视频框架,实现高质量视频生成。

详情链接:https://top.aibase.com/tool/open-sora

4、比Gemini Pro1.5强!可解读视频的多模态模型 Pegasus-1公测

Pegasus-1是视频语言基础模型的升级版本,在多个任务中取得显著成就,刷新了视频理解标准。该模型具有约17亿参数,通过数据优化、视频处理和训练技术提升,提供卓越的视频理解和生成文本能力。

image.png

【AiBase提要:】

🌟 Pegasus-1在视频理解领域取得新突破,比Gemini Pro1.5强,表现卓越。

🌟 产品特色功能包括数据优化、视频处理提升和训练技术改进,为模型性能提供强大基础。

🌟 在基准测试中,Pegasus-1胜过谷歌Gemini Pro等现有模型,在视频问答、对话和摘要等任务中展现出卓越性能。

详情链接:https://top.aibase.com/tool/pegasus-1API

5、微信发布桌面效率AI工具小微助手

微信最近推出了名为“小微助手”的桌面AI效率工具,通过自然语言处理技术提升用户工作效率。这款工具支持Windows和Mac操作系统,具备灵活搜索功能、内置实用工具和指尖助手功能,以及圈子功能和支持的对话服务。

image.png

【AiBase提要:】

🔍 小微助手提供灵活搜索功能,支持自然语言搜索电脑中指定文件夹的内容。

🛠️ 内置实用工具包括微信翻译、剪贴板管理、JSON魔方和闪念胶囊,增强日常助手功能。

🤖 指尖助手功能允许用户快速访问预设的快捷操作,如文本翻译和文本收藏,支持功能自定义。

详情链接:https://top.aibase.com/tool/xiaoweizhushou

注:目前微信已经在官网关闭了下载链接(具体原因未知)

6、超真实的虚拟试衣软件IDM-VTON 连衣服的褶子都那么真实

IDM-VTON虚拟试衣技术引起广泛关注,细节处理精细,用户能真实感受衣物质感和设计。技术高度真实感,复杂背景处理,一致性保持,纹理与图案精确再现。应用于时尚零售、个性化设计、在线试衣间等领域,为消费者提供便捷试衣方式,为设计师和零售商提供新展示销售手段。

image.png

【AiBase提要:】

👗 技术高度真实感,细节精细,带来接近现实的试衣体验。

🌟 复杂背景处理,保持试穿效果高质量,适用不同场景。

🔄 一致性保持,展示同一服装在不同体型下效果一致,纹理与图案精确再现。

项目地址:https://idm-vton.github.io/

试玩地址:https://top.aibase.com/tool/idm-vton

7、AI搜索引擎Perplexity.ai估值达10亿美元并发布新的企业产品

Perplexity.ai近期完成融资,估值达数十亿美元,推出企业服务“Enterprise Pro”,提高工作场所搜索准确性和效率。公司计划加速全球扩张,与SoftBank Corp.和德国电信合作推广人工智能功能。

image.png

【AiBase提要:】

⭐ 完成融资,估值达10亿美元,推出“Enterprise Pro”提高搜索准确性和效率

⭐ 与SoftBank Corp.和德国电信合作推广人工智能功能,加速全球扩张

⭐ 提供增强数据隐私、改善安全性、用户管理、SOC2认证、数据存储和单一登录等功能

详情链接:https://top.aibase.com/tool/perplexity-enterprise-pro

8、旷视发布HiDiffusion,SD生成速度更快,图片质量更高

旷视最近发布的HiDiffusion技术引起了业界广泛关注。这一技术能显著提升SD生成图像的分辨率和生成速度,允许图像分辨率高达4096×4096,同时提高生成速度1.5至6倍。HiDiffusion解决了对象重复和高计算负担问题,在生成高分辨率图像任务上取得卓越效果。

image.png

【AiBase提要:】

🚀 HiDiffusion技术提升SD生成图像分辨率和速度

🔍 HiDiffusion框架包含RAU-Net模块和MSW-MSA注意力机制

💡 应用HiDiffusion可将图像生成分辨率提高至4096×4096,速度提升1.5至6倍

详情链接:https://top.aibase.com/tool/hidiffusion

9、《这就是ChatGPT》登顶微信读书热搜榜第一

这篇文章介绍了由斯蒂芬・沃尔夫拉姆(Stephen Wolfram)于2023年出版的《这就是ChatGPT》一书,深入剖析了OpenAI开发的人工智能聊天机器人程序ChatGPT,展示了它引起广泛关注的原因以及如何利用Wolfram|Alpha赋予其计算知识超能力。

【AiBase提要:】

🤖 ChatGPT是OpenAI开发的聊天机器人程序,于2022年11月发布。

📚 《这就是ChatGPT》解析了ChatGPT的内部机制和原理,以及如何生成有意义的文本。

💡 ChatGPT结合Wolfram|Alpha展示了其在计算知识方面的超能力。

10、AI电影制作平台Morph Studio正式向候补用户开放访问权限

Morph Studio正式向候补用户开放访问权限,引发广泛关注。平台新增视频生成角色一致性和配音生成功能,提升用户体验。用户可通过参考图像精细制作视频,使用音效模型丰富音频效果。Morph Studio与Stability AI合作,提供全新电影制作方式,一体化流程高效连贯。活跃用户社区是竞争优势,为平台发展提供动力。

image.png

【AiBase提要:】

🎥 视频生成角色一致性和配音生成功能提升用户体验

🖼️ 参考图像精细制作视频,音效模型丰富音频效果

🚀 与Stability AI合作,一体化流程高效连贯

产品入口:https://top.aibase.com/tool/morph-studio

点此加入候补名单:https://app.morphstudio.com/waitlist

11、AI视频生成工具ID-Animator:可保持角色一致生成视频动画

ID-Animator是一种零样本个性化视频生成方法,可根据单个参考面部图像生成个性化视频,无需额外训练。该方法结合控制网络,实现单帧或多帧控制图像与面部参考图像的融合生成视频。

image.png

【AiBase提要:】

⭐ 提出了一种零样本人类视频生成方法,可根据单个参考面部图像进行个性化视频生成

⭐ 引入面向身份的数据集构建流水线,提高身份信息在视频生成中的提取效率

⭐ 结合控制网络,实现单帧或多帧控制图像与面部参考图像的融合生成视频

详情链接:https://top.aibase.com/tool/id-animator

12、Nvidia CEO黄仁勋亲自向OpenAI交付第一台DGX H200

Nvidia CEO黄仁勋亲自向OpenAI交付首个Nvidia DGX H200,标志着AI技术和研究能力取得重大进展。这一举动彰显了人工智能行业两大巨头之间紧密的联系,为AI领域的发展带来新的希望和机遇。

image.png

【AiBase提要:】

⭐ Nvidia DGX H200作为最新最先进的AI处理器,代表着人工智能技术的重要飞跃。

⭐ OpenAI获得DGX H200将提升研究能力,尤其在GPT-5模型的发展上。

⭐ DGX H200的推出将推动整个人工智能行业的进步,赋予研究人员和开发人员处理更雄心勃勃项目的能力。

13、LinkedIn调查显示:AI威胁下,女性工作更易被取代

在国际货币基金组织和LinkedIn的研究中发现,女性持有的工作更容易受人工智能影响,尤其在先进经济体中。女性面临更高风险,可能更容易被AI取代。文章指出,女性在快速发展的AI时代需要更多关注和支持以抵御工作变革和挑战。

【AiBase提要:】

⭐️ 女性持有的工作更容易受人工智能影响,尤其在先进经济体中。

⭐️ 约60%的工作可能受到AI影响,女性面临更高风险。

⭐️ 全球范围内,57%的女性工作可能被AI打乱,相较之下男性为43%。

举报

  • 相关推荐
  • 无人机编队新标杆|高巨创新 EMO PLUS 定价 5388 元 / 单电版开启预订

    高巨创新EMO PLUS无人机正式发布,定价1000架起订,专为专业级编队表演设计。该产品以科技点亮夜空创意,提供全新选择,满足大型演出需求。

  • 谷歌Home升级实时搜索:Gemini能看懂摄像头画面

    谷歌家居(Google Home)负责人阿尼什卡图卡兰近日宣布,智能家居平台迎来多项重要更新。 不仅修复了多个长期存在的体验问题,还新增了一项值得关注的功能为摄像头推出实时搜索(Live Search)。 此前,Gemini只能回顾已发生的事件,而现在,它能够理解摄像头实时画面中的内容。 这意味着用户可以直接提问:嘿Google,车道上有车吗?”实时感知能力的加入,让智能家居从�

  • 潮牌Supreme卖棺材 介绍称“耐用”:20号钢打造

    近日,潮流界再掀波澜,Supreme2026 春夏系列推出了一款极具话题性的“终极潮流单品”——Supreme/Titan Orion Casket(联名棺材),瞬间成为时尚圈和大众热议的焦点。 这款联名棺材是Supreme与美国殡葬用品品牌Titan Casket携手打造的。Titan Casket采用DTC模式,主打平价棺椁,此次合作款为美国制造,预计于 8 月正式发售。 从材质和设计来看,这款棺材颇具特色。它由 20 号钢材打造而

  • 谷歌Gemini上线音乐模型 一句话即可生成歌曲

    谷歌于2月20日宣布,其Gemini应用已集成DeepMind旗下先进音乐生成模型Lyria+3。用户仅需一句文字描述或一张照片,即可在数秒内生成一段30秒的完整音乐片段。该模型创作方式灵活,可根据用户指定的风格、情绪或节奏生成包含人声、歌词和伴奏的歌曲,或分析上传的照片/视频画面氛围,创作契合场景的配乐,并配有自定义封面。此外,YouTube创作者可通过Dream Track功能为Shorts短视频配乐。消息公布后,Spotify股价一度上涨近5%。分析认为,Lyria+3短期内虽不会对Spotify构成致命冲击,但可能倒逼其加快推出AI混音功能。谷歌通过技术手段明确划定边界,试图在创新与保护之间寻求平衡,例如将真实音乐人视为创作灵感来源而非模仿对象,并使用SynthID技术为生成曲目添加水印以便检测AI内容。目前Lyria+3已向全球18岁以上用户开放,支持多国语言。

  • AI日报:OpenAI上线 GPT-5.3 Instant;通义千问负责人林俊旸宣布离职;谷歌发布 Gemini 3.1 Flash-Lite

    本期AI日报聚焦行业动态:OpenAI紧急上线GPT-5.3 Instant,重点解决“爹味说教”问题;Anthropic推出Claude Code语音编程模式,提升开发效率。马云带领阿里与蚂蚁核心层访问云谷学校,探讨AI浪潮下的教育变革。AReaL v1.0框架发布,降低智能体强化学习开发门槛。阶跃星辰开源Step3.5Flash模型,参数达1960亿。阿里通义千问负责人林俊旸离职,反映大模型人才高频流动趋势。谷歌发布Gemini

  • AI日报:多模态大模型DeepSeek V4即将发布;谷歌即将停用Gemini 3 Pro Preview;微软推出AI软件组合

    本期AI日报聚焦行业动态:谷歌将停用Gemini 3 Pro Preview,开发者需迁移至3.1版本;DeepSeek V4发布,支持多模态生成并与华为、寒武纪合作优化硬件;微软计划推出AI软件组合,月费或高达99美元;爱奇艺财报显示利润下滑,将押注AI电影制作与去中心化转型;壁仞智能完成数亿元融资,深化端侧AI布局;英伟达将发布集成Groq技术的推理处理器,巩固市场地位;联想展示模块化AI PC概念,提升用户体验;我国发布首个国家级人形机器人标准体系,推动产业高质量发展。

  • 被大量提问内部逻辑 谷歌Gemini遭蒸馏攻击

    近日,谷歌官方披露其旗舰AI模型Gemini正遭遇商业化驱动的大规模蒸馏攻击通过重复提问诱导聊天机器人泄露内部机制。攻击者通过系统地、反复地向模型发送精心设计的提示词,试图逆向工程Gemini的内部推理逻辑与决策机制,以实现模型克隆或强化自身AI系统的目的。此类蒸馏攻击属于知识产权盗窃,尽管各大厂商已部署能够识别与阻断蒸馏攻击的机制,但由于主流大模型服务面向所有人开放,所以其本质上仍易受攻击。

  • AI日报:谷歌发布Gemini3.1Pro;Claude Code远程控制功能上线;Qwen3.5开源家族新增多款模型

    本期AI日报汇总了人工智能领域的最新动态。谷歌发布Gemini 3.1 Pro,推理能力显著提升,多项基准测试超越GPT-4o。Anthropic为Claude Code推出“远程控制”功能,实现移动设备无缝管理电脑编码任务。OpenAI发布深度融合推理能力的编程模型GPT-5.3-Codex。通义千问Qwen3.5开源家族新增多款模型并上线托管服务。Meta开源GPU集群监控工具GCM,精准定位硬件故障。Anthropic发布企业级插件,将Claude深度集成至Office全家桶。谷歌AI虚拟形象支持24种语言,提升跨语言沟通效率。阿里云Coding Plan推出低价订阅服务,降低开发者使用成本。

  • Emoji

    绘文字(日语:絵文字/えもじ emoji)是日本在无线通信中所使用的视觉情感符号,绘指图画,文字指的则是字符,可用来代表多种表情,如笑脸表示笑、蛋糕表示食物等。在中国大陆,emoji通常叫做“小黄脸”,或者直称emoji。在NTTDoCoMo的i-mode系统电话系统中,绘文字的尺寸是12x12 像素,在传送时,一个图形有 2 个字节。Unicode编码为E63E到E757,而在Shift-JIS编码则是从F89F到F9FC。基本的绘文字共有 176 个符号,在C-HTML4. 0 的?

  • emo是什么梗 网络用语emo是什么意思

    最近在各大社交论坛上出现一个“emo”的词语,很多朋友还不清楚这个emo到底是什么意思,下面就来为大家详细的介绍一下emo这个梗。很多人会误以为emo是拼音,也就是恶魔,但是事实上这个emo是英文Emotional Hardcore的缩写。Emotional Hardcore的意思是情感硬核或情感核音乐。EMO乐迷常追随情感核时尚,典型形象是穿紧身牛仔裤,蓄黑色长发,以冲动、敏感、忧郁为特征。所以网络语境下也常用emo来代表“丧”、“忧郁”、“伤感”等?

今日大家都在搜的词: