AI日报：Remini“黏土AI”攻占小红书；HeyGen推自动剪辑工具；多图漫画工具StoryDiffusion来了；AI音乐Udio可生成15分钟音频

2024-05-06 15:00 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://top.aibase.com/

1、这个五一假期，小红书被Remini“黏土AI”攻占了

在五一假期里，小红书平台上出现了一种新的流行趋势——“黏土AI”滤镜，迅速占领了小红书的首页，成为用户们热议的焦点。Remini的AI黏土滤镜功能在全球范围内掀起了新一轮的热潮，展示了AI技术在图像处理领域的应用潜力。

【AiBase提要:】
📸 小红书被“黏土AI”攻占，独特的黏土风格照片走红
🔥 Remini的AI黏土滤镜功能受欢迎，用户只需上传图片即可得到黏土风格照片
🚀 Remini的成功证明了图像处理AI产品在满足用户生活和娱乐需求方面的巨大潜力
详情链接:https://top.aibase.com/tool/remini-app

2、HeyGen推自动剪辑工具Instant Highlights 1.0

HeyGen公司最近推出了Instant Highlights 1.0自动视频剪辑工具，为用户提供便捷的视频编辑体验。该工具具有多语言配音功能，简化了视频内容的多平台适配工作，提高了内容传播效率。另外，HeyGen还发布了Avatar in Motion 1.0技术，实现了虚拟角色的动作捕捉和声音克隆，拓宽了虚拟角色在多个领域的应用潜力。这两项新技术展示了HeyGen在AI领域的实力和创新精神。

【AiBase提要:】
✨ 多语言配音功能，简化视频多平台适配工作，提高内容传播效率。
🌟 Avatar in Motion 1.0技术实现虚拟角色动作捕捉和声音克隆，拓宽了应用潜力。
💡 HeyGen在AI领域展示深厚实力和创新精神，为用户带来丰富个性化体验。
详情链接:https://top.aibase.com/tool/heygen

3、StoryDiffusion：保持角色一致，可生成多图漫画和长视频

南开大学 HVision 团队开发的StoryDiffusion工具能够创造神奇故事，保持角色一致，生成多图漫画和长视频。通过实现Consistent self-attention和Motion predictor，生成连贯的图像和视频，可用于漫画生成、图像转视频等多种场景。

【AiBase提要:】
🔮 Consistent self-attention 实现角色连贯图像生成
🎥 Motion predictor 实现长视频生成
🎨 支持漫画生成、图像转视频、长短视频等多种内容生成功能
详情链接:https://top.aibase.com/tool/storydiffusion

4、AI音乐工具 Udio更新可制作长达 15 分钟音乐

我对Udio最新更新的功能感到非常兴奋。这些更新提供了更长、更连贯的音乐创作体验，为音乐制作者带来更多创作自由和可能性。

【AiBase提要:】
✨ 上下文窗口扩展，考虑前后两分钟内容，提升音乐作品连贯性
🎵 支持长达15分钟音轨制作，满足音乐创作时长需求
🌳 引入创新音轨历史组织方式，让用户清晰追溯音轨版本发展历程
详情链接:https://top.aibase.com/tool/udio

5、Adobe推3D图标工具 Project Neo 可快速2D转3D

Adobe公司最新推出的Project Neo是一项革命性的3D技术，通过整合3D元素和效果，提升传统2D图形设计的视觉效果和制作效率。该工具快速高效的插图制作功能，用户可以轻松创建独特的3D形状，极大提高工作效率。Project Neo具备强大的风格化和造型功能，增强的颜色控制功能让用户能够精细调整中间色和阴影，为设计作品增加深度和几何感。

【AiBase提要:】
✨ 3D技术革命，提升2D设计效率
🎨 快速插图制作，轻松创建独特形状
🖌️ 强大风格化功能，精细调整颜色和阴影
详情链接:https://top.aibase.com/tool/project-neo

6、苹果 AI 计划曝光：更智能的 Siri 即将到来

苹果正致力于改进 Siri，采用更小更高效的模型，并计划在未来使 Siri 无需唤醒词即可智能回应。苹果 AI 在健康、图像编辑、Memojis 等领域展现出多种潜力应用，公司的 AI 战略逐渐清晰。

【AiBase提要:】
⭐ 苹果致力于改进 Siri，采用更小更高效的模型。
⭐ Siri 的未来或许无需唤醒词即可智能回应。
⭐ 苹果 AI 在健康、图像编辑、Memojis 等领域展现出多种潜力应用。

7、VILA：能理解视频的多模态模型，支持笔记本部署

VILA是英伟达发布的视觉语言模型，具备视频理解和多图像理解功能。最新版本VILA-1.5支持多种模型规模选择，通过TinyChat和TensorRT-LLM后端在各类NVIDIA GPU上高效部署。

【AiBase提要:】
💡 VILA是在大规模交织图像文本数据预训练的视觉语言模型
💡 VILA-1.5发布，具备视频理解功能，支持多种模型规模选择
💡 VILA通过TinyChat和TensorRT-LLM后端在各类NVIDIA GPU上高效部署
详情链接:https://top.aibase.com/tool/vila

8、英伟达ChatRTX引入多种新功能

英伟达的ChatRTX最新更新引入了多种新功能，包括支持更多大型语言模型、对比语言图像预训练、Whisper语音识别系统等，显著增强了聊天机器人应用的能力。更新体现了英伟达在AI和RTX加速技术领域的持续创新，为用户带来更智能和互动的体验。

【AiBase提要:】
✨ ChatRTX支持更多大型语言模型，包括Google的Gemma和中英双语的ChatGLM3，扩展了语言处理能力。
🔍 ChatRTX支持OpenAI的对比语言图像预训练（CLIP），使用户能通过文字与本地设备上的照片和图像进行交互。
🎙 ChatRTX支持Whisper语音识别系统，用户可以通过语音与ChatRTX进行交互，提升用户体验。
详情链接:https://blogs.nvidia.com/blog/ai-decoded-chatrtx-update/

9、Brilliant Labs推出Frame：一款集成AI的开源AR眼镜

Brilliant Labs最近发布了一款名为Frame的开源AR眼镜，结合了人工智能（AI）和增强现实(AR)技术，为用户带来前所未有的交互体验。Frame眼镜具备强大的视觉能力，实时采集和分析用户所见的图像数据，通过先进的AI模型提供详细问题解答，增强用户对周围环境的理解和互动。支持多模态交互，实时翻译功能，结合云端Noa AI助手实现更强大的AR功能。

【AiBase提要:】
👓 Frame眼镜结合AI和AR技术，提供前所未有的交互体验。
🔍 Frame具备强大的视觉能力，实时分析用户所见图像数据。
🗣️ 支持多模态交互，实时翻译功能，结合云端Noa AI助手实现更强大的AR功能。
详情链接:https://brilliant.xyz/

10、Rabbit R1被持续扒皮：AI风口一夜转型，NFT充值用户欲哭无泪，动作大模型也是套壳的

本文揭露了Rabbit公司在AI风口下的转型之路，以及其NFT充值用户遭遇的困境。文章指出公司曾推出的大动作模型LAM依赖OpenAI接口，却被质疑套壳安卓。同时，公司从元宇宙转型为AI终端，引发了用户的质疑和关注。

【AiBase提要:】
🔍 Rabbit公司在AI风口下一夜转型，NFT充值用户面临困境。
💥 公司依赖OpenAI接口的大动作模型LAM遭质疑套壳安卓。
🔄 公司从元宇宙转型为AI终端，引发用户质疑和关注。
详情链接:https://twitter.com/EmilyLShepherd/status/1786037498507853852

（举报）

相关推荐

关键词：

Remini

荐AI日报：智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模型

本文介绍了AI日报栏目及近期AI领域多项突破性进展：1)智谱推出免费AI Slides工具，基于GLM模型快速生成高质量PPT；2)可灵AI发布可图2.1模型，支持180多种风格图像生成；3)NVIDIA推出DiffusionRenderer技术，实现视频到可编辑3D场景转换；4)墨刀AI新增30秒生成高保真原型功能；5)Higgsfield推出Soul ID工具，10张照片即可生成虚拟形象；6)谷歌DeepMind开源GenAI Processors工具库；7)谷歌Veo新增图像转视频功能；8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。
荐AI日报：腾讯混元推3D生成大模型Hunyuan3D-PolyGen；钉钉AI表格重磅来袭；阿里推多模态大语言模型HumanOmniV2

本文介绍了AI领域多项重要进展：1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen，显著提升建模效率；2)阿里发布多模态大模型HumanOmniV2，准确率达69.33%；3)钉钉AI表格实现1小时处理千项任务；4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级；5)微软推出Deep Research智能体，自动化研究流程；6)香港理工与OPPO联合开源视频超清框架DLoRAL；7)谷歌开源MCP工具箱简化AI与数据库集成；8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。
ppt自动生成工具最好用的3个

文章介绍了当前AI生成PPT工具的发展现状，重点推荐了"秒出PPT"这一专业平台。该平台具有三大特色功能：1）智能对话式生成，支持中途修改需求；2）提供三种编辑模式（纯文本、纯设计和文本+设计）；3）支持导入文档自动排版，提供"保持原文"和"AI智能修改"两种模式。平台还拥有丰富的模板库，支持在线更换颜色、字体等设计元素。虽然需要购买会员，但相比市面上质量参差不齐的同类产品，该工具在交互体验和功能完整性上表现突出。
全球优质AI语音大模型盘点：Whisper、Gemini Speech

本文分析了当前主流AI语音大模型的核心优势与应用场景。全球顶尖模型包括：OpenAI Whisper（多语言识别与翻译）、Google Gemini（情感化语音生成）、Meta AudioCraft（音乐创作与风格转换）。国内讯飞星火（方言识别）、阿里通义（电商客服）、百度文心（车载场景）表现突出。技术突破点在于云端协同架构、零样本克隆和情感语音合成。选择模型需考虑语言支持、场景适配、部署

AI语音大模型语音交互技术多语言识别
2025最好的AI工具是什么 2025全球最佳AI工具终极指南

文章探讨了当前AI工具爆炸式发展的现状，指出不存在适用于所有场景的"最佳AI工具"，而是要根据个人需求选择最适合的组合。作者推荐使用AIbase平台（https://app.aibase.cn/），这是一个AI工具导航和搜索引擎，收录了全球数千款主流和新兴AI工具，涵盖写作、绘画、视频处理、办公自动化等多个领域。平台提供详细分类、真实用户评价和实时更新，能帮助用户快速找到适�

AI工具 ChatGPT 效率提升
荐AI日报：xAI 震撼发布Grok4；微软开源全新Phi-4-mini版本；上海累计82款大模型通过备案

AI日报栏目聚焦人工智能领域最新动态：1)xAI发布旗舰模型Grok4，在数学推理和代码生成表现突出，同时推出开发者专用Grok4Code；2)微软开源Phi-4-mini模型，推理效率提升10倍，适合边缘设备；3)上海82款大模型完成备案，垂直领域应用取得突破；4)Hugging Face推出开源桌面机器人Reachy Mini，支持Python编程；5)Perplexity发布AI浏览器Comet挑战Chrome；6)OpenAI将首次发布开放权重模型，打破闭源惯例；7)谷歌医疗AI模型MedGemma系列上新，单个GPU即可运行；8)OpenAI以约65亿美元收购AI硬件公司io Products，正式进军硬件市场。
荐AI日报：阿里通义开源音频生成模型ThinkSound；谷歌Veo3支态图片生成视频；昆仑万维发布 Skywork-R1V 3.0

【AI日报】今日AI领域重要动态：1)阿里开源支持链式推理的音频生成模型ThinkSound，实现高保真空间音频生成；2)谷歌Veo3升级，支持静态图片生成生动视频；3)Hugging Face发布30亿参数小模型SmolLM3，性能优于Llama-3.2-3B；4)阿里开源网络智能体WebSailor，展现强大推理和检索能力；5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5；6)Vidu Q1支持最多七张参考图像生成一致性视频；7)苹果�

人工智能音频生成链式推理
2025年国外AI工具排名TOP10｜全球热门AI工具全面解析 + 最全AI工具库推荐

文章介绍了2025年国外AI工具Top10榜单，包括ChatGPT(对话生成)、Claude(长文本处理)、Midjourney(图像生成)、Gemini(多模态生成)、GitHub C opilot(编程辅助)、Notion AI(知识管理)、Perplexity AI(智能搜索)、Runway ML(视频编辑)、ElevenLabs(语音合成)和Descript(音视频编辑)。推荐使用AIbase平台一站式查找和管理AI工具，该平台收录上千款工具，支持智能搜索分类，提供中文界面和实时更新。建议用户关�

AI工具国外AI平台 AI产品推荐
谷歌推出终端AI编程工具Gemini CLI Gemini CLI安装使用教程一览

近日，谷歌在AI编程领域推出了一款备受瞩目的终端AI编程工具——Gemini CLI。这款免费开源的工具一经发布，便在开发者群体中引发了广泛关注，其强大的功能和免费开源的特性，使其在众多同类产品中脱颖而出，甚至让一些竞争对手如Claude Code相形见绌。如果您对AI编程工具感兴趣，想要了解更多类似的产品，可以访问 [AIbase - 智能匹配最适合您的AI产品和网站]（https://top.aiba

Gemini CLI AI编程工具
荐AI日报：B站或将推“代号H” AI创作工具；智元发布哪吒机器人灵犀X2-N；宇树科技冲刺科创板IPO

【AI日报】今日AI领域重要动态：1)B站将推出"代号H"AI创作工具，助力视频博主提升效率；2)智元发布双形态机器人"灵犀X2-N"，展现强大适应性；3)宇树科技冲刺科创板IPO，获阿里腾讯投资，估值达120亿；4)开源多模态大模型EarthMind发布，革新地球观测数据分析；5)Gemini CLI更新，新增音视频处理与隐私保护功能；6)开源AI助手Glass上线，智能记录生活点滴；7)Claude将发布Neptune v3模型，数学能力突出；8)OpenAI宣布GPT-5将整合多种模型，实现全新突破。

AI创作工具视频播客 B站

热文

3 天
7天

AI日报：Remini“黏土AI”攻占小红书；HeyGen推自动剪辑工具；多图漫画工具StoryDiffusion来了；AI音乐Udio可生成15分钟音频

荐AI日报：智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模型

荐AI日报：腾讯混元推3D生成大模型Hunyuan3D-PolyGen；钉钉AI表格重磅来袭；阿里推多模态大语言模型HumanOmniV2

ppt自动生成工具最好用的3个

全球优质AI语音大模型盘点：Whisper、Gemini Speech

2025最好的AI工具是什么 2025全球最佳AI工具终极指南

荐AI日报：xAI 震撼发布Grok4；微软开源全新Phi-4-mini版本；上海累计82款大模型通过备案

荐AI日报：阿里通义开源音频生成模型ThinkSound；谷歌Veo3支态图片生成视频；昆仑万维发布 Skywork-R1V 3.0

2025年国外AI工具排名TOP10｜全球热门AI工具全面解析 + 最全AI工具库推荐

谷歌推出终端AI编程工具Gemini CLI Gemini CLI安装使用教程一览

荐AI日报：B站或将推“代号H” AI创作工具；智元发布哪吒机器人灵犀X2-N；宇树科技冲刺科创板IPO

热文

AI日报：xAI 震撼发布Grok4；微软开源全新Phi-4-mini版本；上海

AI日报：智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模

比特币首触112000美元：盘中涨幅最高达3%

微信：持续打击非法使用外挂行为进一步强化外挂营销信息治理

小米回应AI眼镜没有屏显功能：专注拍摄、AI语音交互

荣耀X70支持IP66/IP68/IP69/IP69K 号称行业最高规格防水

OPPO K13 Turbo系列官宣将于7月21日发布内置散热风扇

REDMI Turbo 4 Pro粉金新配色发布售价1899元起

小米汽车交付超30万辆：用时仅15个月

小米回应小折叠未搭载玄戒O1：立项之初总量比较有限