首页 > 业界 > 关键词  > EMO最新资讯  > 正文

AI日报:阿里对口型视频项目EMO开启内测;苹果官宣端侧小模型OpenELM;Open-Sora偷偷升级;微信发布AI工具小微助手

2024-04-25 15:25 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

1、阿里对口型项目EMO开启内测 可将照片转为唱歌视频

阿里推出的对口型项目EMO开启内测,用户只需提供一张照片和语音模型即可定制数字人像,实现低成本高效率的数字人出镜体验。EMO模型具有简便操作、低成本、广泛适用性和自然表达等特点,通过强大的技术实现让用户体验到全新的数字人出镜体验。

image.png

【AiBase提要:】

🎤 简便操作: 用户只需提供一张照片和语音模型即可定制数字人像。

💰 低成本: EMO模型提供免费高效的解决方案,与其他产品相比成本更低。

🎨 广泛适用性: 不仅限于写实人像,还能生成3D模型和二次元漫画风格视频,满足不同用户需求。

内测申请地址:https://www.wjx.top/vm/exOVbr1.aspx#

2、苹果发布OpenELM小型AI模型

苹果发布了OpenELM,一系列小型AI模型,标志着公司在本地AI运行领域的重要进展。这些小型模型比大多数轻量级AI模型更小,适合在手机和笔记本等设备上运行。苹果暗示将AI引入iPhone等设备,展示了公司在人工智能领域的雄心。

image.png

【AiBase提要:】

⭐ OpenELM是一系列非常小的语言模型,在文本相关任务上表现高效。

⭐ OpenELM比大多数轻量级AI模型更小,分为不同规格,适合在各种设备上运行。

⭐ 苹果暗示AI功能将登陆公司设备,公司发布了多个AI模型,展示对AI领域的投入。

详情链接:https://top.aibase.com/tool/openelm

3、Open-Sora悄悄升级 支持16秒视频生成和720p分辨率

Open-Sora项目在开源社区悄悄更新,新增支持长达16秒的单镜头视频生成和720p分辨率,提供了多种视频生成需求的解决方案。技术报告详细介绍了新功能和模型架构,对STDiT架构进行了关键性改进,提高了训练稳定性和性能。项目在多阶段训练方法和统一的图生视频/视频生视频框架方面取得了显著进展。

image.png

【AiBase提要:】

🚀 Open-Sora新增支持16秒视频生成和720p分辨率,满足多种视频生成需求。

🔬 技术报告详细介绍了新功能和模型架构,改进了STDiT架构提高了训练稳定性和性能。

💡 项目采用多阶段训练方法和统一的图生视频/视频生视频框架,实现高质量视频生成。

详情链接:https://top.aibase.com/tool/open-sora

4、比Gemini Pro1.5强!可解读视频的多模态模型 Pegasus-1公测

Pegasus-1是视频语言基础模型的升级版本,在多个任务中取得显著成就,刷新了视频理解标准。该模型具有约17亿参数,通过数据优化、视频处理和训练技术提升,提供卓越的视频理解和生成文本能力。

image.png

【AiBase提要:】

🌟 Pegasus-1在视频理解领域取得新突破,比Gemini Pro1.5强,表现卓越。

🌟 产品特色功能包括数据优化、视频处理提升和训练技术改进,为模型性能提供强大基础。

🌟 在基准测试中,Pegasus-1胜过谷歌Gemini Pro等现有模型,在视频问答、对话和摘要等任务中展现出卓越性能。

详情链接:https://top.aibase.com/tool/pegasus-1API

5、微信发布桌面效率AI工具小微助手

微信最近推出了名为“小微助手”的桌面AI效率工具,通过自然语言处理技术提升用户工作效率。这款工具支持Windows和Mac操作系统,具备灵活搜索功能、内置实用工具和指尖助手功能,以及圈子功能和支持的对话服务。

image.png

【AiBase提要:】

🔍 小微助手提供灵活搜索功能,支持自然语言搜索电脑中指定文件夹的内容。

🛠️ 内置实用工具包括微信翻译、剪贴板管理、JSON魔方和闪念胶囊,增强日常助手功能。

🤖 指尖助手功能允许用户快速访问预设的快捷操作,如文本翻译和文本收藏,支持功能自定义。

详情链接:https://top.aibase.com/tool/xiaoweizhushou

注:目前微信已经在官网关闭了下载链接(具体原因未知)

6、超真实的虚拟试衣软件IDM-VTON 连衣服的褶子都那么真实

IDM-VTON虚拟试衣技术引起广泛关注,细节处理精细,用户能真实感受衣物质感和设计。技术高度真实感,复杂背景处理,一致性保持,纹理与图案精确再现。应用于时尚零售、个性化设计、在线试衣间等领域,为消费者提供便捷试衣方式,为设计师和零售商提供新展示销售手段。

image.png

【AiBase提要:】

👗 技术高度真实感,细节精细,带来接近现实的试衣体验。

🌟 复杂背景处理,保持试穿效果高质量,适用不同场景。

🔄 一致性保持,展示同一服装在不同体型下效果一致,纹理与图案精确再现。

项目地址:https://idm-vton.github.io/

试玩地址:https://top.aibase.com/tool/idm-vton

7、AI搜索引擎Perplexity.ai估值达10亿美元并发布新的企业产品

Perplexity.ai近期完成融资,估值达数十亿美元,推出企业服务“Enterprise Pro”,提高工作场所搜索准确性和效率。公司计划加速全球扩张,与SoftBank Corp.和德国电信合作推广人工智能功能。

image.png

【AiBase提要:】

⭐ 完成融资,估值达10亿美元,推出“Enterprise Pro”提高搜索准确性和效率

⭐ 与SoftBank Corp.和德国电信合作推广人工智能功能,加速全球扩张

⭐ 提供增强数据隐私、改善安全性、用户管理、SOC2认证、数据存储和单一登录等功能

详情链接:https://top.aibase.com/tool/perplexity-enterprise-pro

8、旷视发布HiDiffusion,SD生成速度更快,图片质量更高

旷视最近发布的HiDiffusion技术引起了业界广泛关注。这一技术能显著提升SD生成图像的分辨率和生成速度,允许图像分辨率高达4096×4096,同时提高生成速度1.5至6倍。HiDiffusion解决了对象重复和高计算负担问题,在生成高分辨率图像任务上取得卓越效果。

image.png

【AiBase提要:】

🚀 HiDiffusion技术提升SD生成图像分辨率和速度

🔍 HiDiffusion框架包含RAU-Net模块和MSW-MSA注意力机制

💡 应用HiDiffusion可将图像生成分辨率提高至4096×4096,速度提升1.5至6倍

详情链接:https://top.aibase.com/tool/hidiffusion

9、《这就是ChatGPT》登顶微信读书热搜榜第一

这篇文章介绍了由斯蒂芬・沃尔夫拉姆(Stephen Wolfram)于2023年出版的《这就是ChatGPT》一书,深入剖析了OpenAI开发的人工智能聊天机器人程序ChatGPT,展示了它引起广泛关注的原因以及如何利用Wolfram|Alpha赋予其计算知识超能力。

【AiBase提要:】

🤖 ChatGPT是OpenAI开发的聊天机器人程序,于2022年11月发布。

📚 《这就是ChatGPT》解析了ChatGPT的内部机制和原理,以及如何生成有意义的文本。

💡 ChatGPT结合Wolfram|Alpha展示了其在计算知识方面的超能力。

10、AI电影制作平台Morph Studio正式向候补用户开放访问权限

Morph Studio正式向候补用户开放访问权限,引发广泛关注。平台新增视频生成角色一致性和配音生成功能,提升用户体验。用户可通过参考图像精细制作视频,使用音效模型丰富音频效果。Morph Studio与Stability AI合作,提供全新电影制作方式,一体化流程高效连贯。活跃用户社区是竞争优势,为平台发展提供动力。

image.png

【AiBase提要:】

🎥 视频生成角色一致性和配音生成功能提升用户体验

🖼️ 参考图像精细制作视频,音效模型丰富音频效果

🚀 与Stability AI合作,一体化流程高效连贯

产品入口:https://top.aibase.com/tool/morph-studio

点此加入候补名单:https://app.morphstudio.com/waitlist

11、AI视频生成工具ID-Animator:可保持角色一致生成视频动画

ID-Animator是一种零样本个性化视频生成方法,可根据单个参考面部图像生成个性化视频,无需额外训练。该方法结合控制网络,实现单帧或多帧控制图像与面部参考图像的融合生成视频。

image.png

【AiBase提要:】

⭐ 提出了一种零样本人类视频生成方法,可根据单个参考面部图像进行个性化视频生成

⭐ 引入面向身份的数据集构建流水线,提高身份信息在视频生成中的提取效率

⭐ 结合控制网络,实现单帧或多帧控制图像与面部参考图像的融合生成视频

详情链接:https://top.aibase.com/tool/id-animator

12、Nvidia CEO黄仁勋亲自向OpenAI交付第一台DGX H200

Nvidia CEO黄仁勋亲自向OpenAI交付首个Nvidia DGX H200,标志着AI技术和研究能力取得重大进展。这一举动彰显了人工智能行业两大巨头之间紧密的联系,为AI领域的发展带来新的希望和机遇。

image.png

【AiBase提要:】

⭐ Nvidia DGX H200作为最新最先进的AI处理器,代表着人工智能技术的重要飞跃。

⭐ OpenAI获得DGX H200将提升研究能力,尤其在GPT-5模型的发展上。

⭐ DGX H200的推出将推动整个人工智能行业的进步,赋予研究人员和开发人员处理更雄心勃勃项目的能力。

13、LinkedIn调查显示:AI威胁下,女性工作更易被取代

在国际货币基金组织和LinkedIn的研究中发现,女性持有的工作更容易受人工智能影响,尤其在先进经济体中。女性面临更高风险,可能更容易被AI取代。文章指出,女性在快速发展的AI时代需要更多关注和支持以抵御工作变革和挑战。

【AiBase提要:】

⭐️ 女性持有的工作更容易受人工智能影响,尤其在先进经济体中。

⭐️ 约60%的工作可能受到AI影响,女性面临更高风险。

⭐️ 全球范围内,57%的女性工作可能被AI打乱,相较之下男性为43%。

举报

  • 相关推荐
  • AI日报:QQ浏览器升级AI浏览器;OpenAI全新编程智能体Codex;B站团队推动漫视频生成模型AniSora

    本文介绍了AI领域多项最新进展:1)B站团队推出开源动漫视频生成模型AniSora,支持多种风格创作;2)OpenAI发布编程智能体Codex,提升开发效率;3)Google测试AI问答功能AI Mode;4)ChatGPT将整合MCP协议,支持第三方AI服务对接;5)阿里推出ZeroSearch框架,减少对搜索引擎的依赖;6)Stability AI与Arm合作推出手机端音频生成AI;7)Qwen发布WorldPM系列大模型;8)GPT-5将整合多款产品功能;9)ListenHub上线AI播客生成工具;10)QQ浏览器升级为AI浏览器;11)数学建模AI助手MathModelAgent面世;12)GenSpark推出全球首个智能下载代理;13)谷歌NotebookLM将推出视频摘要功能。这些创新展现了AI技术在各领域的快速发展和广泛应用。

  • AI日报阿里通义千问Qwen3问鼎全球开源模型;Kimi长思考模型API发布;OpenAI发布新一代GPT-4.1模型

    【AI日报】汇总了近期AI领域重要动态:1)阿里通义千问3开源模型上线7天即登顶全球开源模型榜首,在指令遵循和推理能力上超越闭源模型;2)月之暗面推出Kimi长思考模型API,可解决复杂代码和数学问题;3)OpenAI发布GPT-4.1模型,性能提升显著;4)Google推出Gemini2.5Pro模型,提升开发者编码能力;5)联想发布"天禧超级智能体",具备多模态感知能力;6)腾讯元宝上线"对话分

  • AI日报:谷歌推最强AI全家桶Google AI Ultra;腾讯混元宣布模型矩阵全面升级;豆包·语音播客模型发布

    本文汇总了近期AI领域的重要动态:1)谷歌推出249.99美元/月的AI Ultra订阅计划,提供最强AI模型和高级功能;2)腾讯混元模型升级,新增视觉推理T1-Vision和语音对话模型;3)美图获阿里2.5亿美元投资,将在电商和AI领域合作;4)豆包推出语音播客模型,实现文本快速转音频;5)百度文心X1 Turbo获信通院最高评级;6)谷歌发布Flow AI剪辑工具,集成Veo3等三大模型;7)谷歌Veo3支持4K视频生成;8)Imagen4图像模型发布;9)Gemini2.5 Pro新增并行推理功能;10)谷歌推出虚拟试衣工具;11)公测AI编程助手Jules;12)苹果计划在iOS19开放AI模型;13)京东云推五大免费AI营销工具;14)字节开源多模态模型BAGEL;15)英伟达发布物理推理模型Cosmos-Reason1。

  • AI日报:昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

    本文介绍了AI领域最新动态:1)昆仑万维推出全球首款AI+Agent架构的Office智能体应用;2)研究显示ChatGPT能提升K12学生成绩近87%;3)谷歌视频生成工具Veo3扩展至更多地区;4)谷歌发布三款Gemma模型变体,覆盖医疗、手语翻译和海豚语言研究;5)VideoTutor实现一句话生成定制教学视频;6)字节跳动开源多模态模型BAGEL;7)Rork支持无代码开发iOS/Android应用;8)AingDesk降低AI助手开发门槛;9)Claude4登陆亚马逊Bedrock平台;10)Youware通过MCP协议提升网页生成能力。这些创新展示了AI技术在各领域的快速发展和应用潜力。

  • AI日报阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • AI日报:美团AI编程工具NoCode将上线;火山引擎发布MCP Servers;腾讯混元上线游戏视觉生成平台

    本文汇总了近期AI领域的重要动态:1)美团将推出对话式编程工具"NoCode";2)火山引擎发布大模型生态平台MCP Servers;3)B站开源动画视频生成模型Index-AniSora;4)字节跳动升级AI耳机Ola Friend的英语学习功能;5)GitHub推出AI编程助手自动修复代码漏洞;6)腾讯混元上线游戏视觉生成平台;7)微软将VS Code转型为开源AI编辑器;8)Windows 11原生支持MCP协议;9)Anthropic发布AI代理开发指南;10)谷歌推出编程AI代理Jules;11)NotebookLM推出iOS版;12)Genspark创3600万美元ARR纪录;13)Bright Data发布开源MCP服务器;14)马斯克宣布Grok模型将登陆Azure平台。这些进展展示了AI技术在编程、内容生成、操作系统等领域的快速发展和应用创新。

  • AI日报:扣子空间开放测试;腾讯混元开源视频生成工具HunyuanCustom;阿里开源大模型搜索引擎ZeroSearch

    本文汇总了近期AI领域多项重要进展:1)扣子空间开放测试,无需邀请码即可体验AI协作平台;2)腾讯推出HunyuanCustom视频生成工具,实现音视频同步编辑;3)阿里巴巴ZeroSearch技术降低AI训练成本88%;4)OpenAI新增GitHub连接器,强化代码分析功能;5)联想发布天禧个人超级智能体,具备感知交互能力;6)OpenAI在亚洲推出数据驻留计划;7)Multiverse发布全球首款AI生成多人游戏;8)秘塔AI上线"讲题"功能辅助家长辅导;9)Genspark推出智能电子表格工具AI Sheets;10)Google Gemini API新增缓存功能可节省75%成本;11)PixVerse v4视频生成速度质量双提升;12)快手推出内容净化器KuaiMod;13)英伟达开源新一代OCR代码推理模型。这些创新覆盖AI应用、开发工具、成本优化等多个维度,展现了AI技术的快速发展和广泛应用。

  • AI日报:Anthropic推最强编码AI模型Claude4;苹果计划推AI智能眼镜;QQ浏览器上线首个高考Agent

    【AI日报】今日AI领域重要动态:1)Anthropic发布Claude4系列AI模型,编程能力超越竞争对手;2)苹果计划2026年推出集成AI技术的智能眼镜;3)字节跳动与清华合作推出时序多模态大模型ChatTS;4)3DTown框架实现单张照片生成逼真3D场景;5)OpenAI秘密开发无屏幕AI设备;6)商汤科技推出儿童AI下棋机器人;7)微软记事本新增AI写作功能;8)深圳设立70亿元基金支持AI硬件初创企业;9)谷歌发布3D视频通信平台Beam;10)阿联酋推出"星际之门"计划,免费提供ChatGPT服务;11)法国Mistral推出开源模型Devstral;12)Anthropic API新增四大功能;13)美国众议院通过法案限制各州监管AI;14)QQ浏览器推出高考AI助手。

  • AI日报:GPT-4.1正式上线ChatGPT;阿里通义万相Wan2.1-VACE开源;可灵大模型视频生成量约占30%份额

    本文报道了AI领域最新动态:1)阿里通义万相开源视频编辑统一模型VACE;2)OpenAI发布GPT-4.1增强编码能力;3)Stability AI推出超轻量341M文字转语音模型;4)快手可灵视频生成模型占据30%市场份额;5)微软WizardLM团队整体加入腾讯混元大模型研发体系;6)腾讯宣布混元图像2.0将于5月16日发布;7)上海成立人工智能标识生态联盟;8)Lightricks发布13B参数视频生成模型LTX-Video;9)谷歌DeepMind推出AlphaEvolve优化AI训练速度;10)腾讯元宝浏览器插件上线Chrome平台。这些进展展示了AI技术在视频处理、大模型、语音合成等领域的快速发展。

  • AI日报:Manus面向所有人开放注册;全球首款设计Agent Lovart内测;教育部划清AI使用边界

    【AI日报】今日AI领域重要动态:1)国产AI平台Manus开放注册,无需邀请码即可使用;2)Lovart推出全球首款设计Agent,支持全链路自动化设计;3)教育部发布AI教育指南,禁止学生直接复制AI生成内容;4)昆仑万维开源Matrix-Game大模型,专注交互式世界生成;5)Google Gemma模型下载量突破1.5亿次;6)OpenAI新增一键导出PDF功能;7)字节跳动推出图像编辑框架DreamO;8)Kimi智能助手界面升级;9)阿里MNN更新支持通义千问2.5;10)ChatGPT新增SharePoint连接器;11)OpenVision视觉编码器发布;12)福布斯中国AI企业TOP50榜单发布;13)腾讯"元宝"工具上线,基于混元T1-Vision模型实现图片深度理解。