AI日报：Luma AI文生视频模型炸裂程度堪比Sora；Stable diffusion 3 正式开源；Suno正式发布音频输入功能；阿里发布“融图”工具MimicBrush

2024-06-13 14:57 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://top.aibase.com/

1、Luma AI推重磅级文生视频模型Dream Machine 炸裂程度堪比Sora

Luma AI最新发布的文生视频模型Dream Machine免费开放使用，可生成高质量视频，具有与OpenAI的Sora相媲美的质量。模型支持物理模拟，确保视频真实性和连贯性。用户体验可能受到生成效率影响，但可通过提供的案例来体验视频效果。国内竞品如快手的“可灵”也在竞争中崭露头角，预示着文生视频领域的竞争将更加激烈。

【AiBase提要：】
👉 Dream Machine支持文本和图片输入生成视频
👉支持物理模拟，如重力下落、碰撞和光影变化
👉 Dream Machine提供免费使用，生成的视频在质量、动作一致性、色彩、光影、饱和度和运镜等方面可与OpenAI的Sora相媲美。
更多视频点此查看：https://mp.weixin.qq.com/s/DreeYriR9MdvdvvRQ7ZkAw
免费体验地址:https://top.aibase.com/tool/dream-machine

2、Stable diffusion 3 正式开源：超强文生图模型SD3-M登场

SD3-M是一款强大的文生图模型，拥有20亿参数，推理速度高效，生成效果优秀。Stability AI开源了SD3-M权重，为用户提供免费试用机会。模型使用MMDiT架构，在图片质量、排版、文本提示理解等方面取得显著提升。用户可通过在线demo体验SD3-M生成效果，但目前仅用于学术研究，商业需求需联系Stability AI。开源SD3-M为用户探索文生图模型应用潜力带来机遇。

【AiBase提要:】
⚙️ SD3-M拥有20亿参数，生成速度快，硬件需求低，性能最高可提升50%。
🌟 SD3-M使用10亿张图片进行预训练，3000万张图片进行微调，生成效果惊艳非凡。
🔓 SD3-M开源免费试用，但目前仅用于学术研究，商业需求需联系Stability AI。
详情链接:https://top.aibase.com/tool/stable-diffusion-3-mediumSD3-M

3、Suno正式发布音频输入功能可以用任何声音创作歌曲

Suno最近推出了令人兴奋的新功能，允许用户从任何声音中创作歌曲。这项创新的功能为专业版和高级版用户开放，为音乐创作带来新的可能性，展示了AI技术在艺术创作领域的应用潜力。用户可以随时随地捕捉灵感，将日常生活中的声音转化为美妙的音乐作品。

【AiBase提要:】
🎶 音频输入功能开放给专业版和高级版用户，允许转化各种声音为音乐作品。
🔒 用户权限受限，只有专业版和高级版用户可以使用该功能。
📻 Suno还发布了电台功能，提供个性化播放列表，让用户享受无尽的音乐流。
详情链接:https://top.aibase.com/tool/suno-ai

4、MimicBrush：上传图片参考，实现原图局部风格重绘

MimicBrush是香港大学研究团队提出的一种零参考图像编辑技术，通过自监督学习实现图像编辑，无需用户准确描述编辑效果。其创新之处在于自动理解参考图片，提高编辑准确度和效率。

【AiBase提要:】
🎨 零参考图像编辑，简化用户操作，无需描述编辑效果。
🔍 MimicBrush模型通过自监督学习捕捉图像语义对应关系，提高编辑效果准确度。
🚀 实验结果显示MimicBrush技术在各测试案例下表现优越，具有更高的编辑效率。
详情链接:https://top.aibase.com/tool/mimicbrush

5、抖音博主用AI绘画将各地美食变成怪兽形象 6条视频播放量1700万

这篇文章介绍了抖音博主“一条咸鱼微”运用AI绘画技术将各地传统美食转化为怪兽形象的创意作品，引发了广泛关注。通过生动的怪兽形象，博主展示了中国不同地区的独特美食文化，同时巧妙运用网络梗增添幽默元素，让人对地域文化有了更深的认识。作品创意十足，让人印象深刻。

【AiBase提要:】
🎨 创意转化：各地美食巧妙变身为怪兽形象，生动有趣。
😄 幽默元素：运用网络梗增添幽默，让人忍俊不禁。
🌏 地域文化：展示地域美食特色，让人感受到中国各地的文化魅力和差异。

6、人类胜AI!一张真实照片在人工智能图像大赛中获得第三名

这篇文章讲述了一张伪装成人工智能生成的照片在艺术摄影比赛中获得第三名的事件，引发了人们对人工智能与人类艺术之间界限的思考。摄影师Miles Astray的作品《FLAMINGONE》展示了火烈鸟的照片，虽然看起来像是人工智能创作，但实际上是真实作品。文章强调了人工智能在艺术创作中的局限性，以及人类创作的独特价值。

【AiBase提要:】
🤖 人工智能与人类艺术界限：一张真实照片被误认为是人工智能生成作品。
📷 摄影师Miles Astray的作品《FLAMINGONE》引发广泛关注。
🎨 人工智能艺术的局限性：缺乏人类艺术作品中的情感和意图。

7、900万人围观哈利波特唱Rap 网友：欢迎收看“AI有嘻哈”

这篇文章介绍了一段哈利波特变身嘻哈歌手的视频在网络上引起轰动的情况。视频展现了哈利波特和海格以全新形象出现，表演充满活力，吸引了大量观众的关注。原作者通过AI技术与艺术、娱乐结合，创作了这段充满创意和趣味的视频，展示了新的可能性。

【AiBase提要:】
🔥 视频展现哈利波特和海格以嘻哈歌手形象出现，引起大量关注。
💡 原作者通过AI技术变换音色，创作了充满活力的Rap表演。
😂 视频混搭风格让网友捧腹大笑，展示了跨界创作和艺术形式的潜力。

8、Uizard发布Autodesigner 2.0 AI设计引擎

Uizard公司发布了全新的Autodesigner 2.0 AI设计引擎，结合了专有模型、Anthropic AI和OpenAI的技术，以及Stability AI的图像生成技术，简化了UI设计流程，提高设计效率和创新性。

【AiBase提要:】
🌟 文本提示生成设计: 用户通过简单文本提示生成完整UI设计，适应不同应用场景。
💬 对话模式交互: 引入对话模式，用户可以与设计助手互动生成设计、添加元素、修改组件。
🔄 实时设计与迭代: 用户可实时查看编辑AI生成设计，快速迭代满足设计需求。
详情链接:https://top.aibase.com/tool/uizard

9、吴恩达开源 AI 智能体机器翻译项目Translation Agent

吴恩达最新开源的 AI 智能体机器翻译项目Translation Agent，利用反射式代理工作流程和 LLM 技术提供高度定制化的翻译服务，为用户提供灵活设定语气、地区特色和专业术语表的翻译体验。该项目的可定制性和灵活性将推动 AI 智能体在机器翻译领域的广泛应用。

【AiBase提要:】
🤖 提供反射式代理工作流程，利用 LLM 技术进行翻译，反思并提出改进建议，提高翻译质量。
🔧 可定制性强，允许用户修改输出风格、处理特殊术语和指定特定区域或方言的语言使用。
🌍 适用于不同语言对的翻译，通过调整提示和选择不同的 LLM，实现更优质的翻译效果。

10、三星计划加速交付人工智能芯片

三星电子计划通过整合存储芯片、晶圆厂和芯片封装服务加速人工智能芯片生产，预计到2028年人工智能芯片需求将成为主要增长推动力。公司推出2纳米芯片制造工艺和计划量产第二代3纳米芯片，展现技术领先优势。

【AiBase提要:】
🚀 三星整合存储芯片、晶圆厂和芯片封装服务，缩短人工智能芯片生产时间约20%。
💡 预计到2028年，全球芯片行业收入将增长至7780亿美元，人工智能芯片需求将成为主要推动力。
🔬 三星推出2纳米芯片制造工艺和计划量产第二代3纳米芯片，展现技术领先优势。

（举报）

相关推荐

关键词：

Luma

荐AI日报：MiniMax发布视频智能体Hailuo Agent；昆仑万维开源 Skywork-SWE-32B；B站接入Qwen 3等模型

本期AI日报聚焦多项AI领域创新：1)MiniMax推出视频Agent工具，支持文本生成高清视频及人脸驱动；2)昆仑万维开源Skywork-SWE-32B模型，提升软件工程任务表现；3)B站接入通义千问模型，推出数据分析智能体InsightAgent；4)ChatGPT深度整合Gmail与日历功能；5)腾讯云发布全链路AI开发平台"AI Builder"；6)HeyGen推出UGC广告数字人功能；7)研究显示过度依赖AI或削弱批判性思维。此外还涵盖AI音乐生成、内容检测工具停运等动态，展现AI技术快速发展的多元应用与潜在影响。

AI日报视频生成人工智能
荐AI日报：MiniMax-M1开源；阿里Qwen3升级版适配苹果MLX架构；月之暗面发布新模型Kimi-Dev-72B

《AI日报》汇总了近期AI领域多项重要进展：1)月之暗面推出开源编程模型Kimi-Dev-72B，在软件工程任务测试中创下新纪录；2)MiniMax开源M1模型，支持超长上下文推理且训练成本低；3)腾讯发布AI音乐模型LeVo，支持音色克隆和分轨生成；4)阿里云Qwen3升级版适配苹果MLX架构；5)豆包推出"AI播客"功能，可将PDF转为对话播客；6)夸克App上线个性化AI家教"夸克老师"；7)松下发布多模态大模型OmniFlow，实现文本/图像/音频自由切换；8)TikTok推出三款AI视频创作工具；9)极氪与火山引擎合作，将豆包大模型接入智能座舱系统；10)Meta的Llama3.1模型在文本记忆方面表现突出；11)Grok上线定时追踪X热门话题功能；12)Gemini2.5Pro即将更新Deep Think功能；13)谷歌地图引入AI技术升级导航和个性化推荐功能。

人工智能开源模型软件工程
荐AI日报：MiniMax推视频生成模型Hailuo 02；Cursor Pro取消500次请求限制；谷歌发布AI模型 Gemini 2.5 Flash-Lite

本文汇总了AI领域最新动态：1)Cursor Pro取消500次请求限制；2)稀宇科技推出视频生成模型Hailuo02；3)谷歌发布轻量级AI模型Gemini2.5Flash-Lite；4)科大讯飞星火X1升级版7月上线；5)腾讯元宝推出AI编程模式；6)OpenAI将下架GPT-4.5 API；7)苹果Speech API转录速度超Whisper 55%；8)百度推出数字人互动直播间；9)Meta曾试图高薪挖角OpenAI人才；10)Krea1公测开放，解决"AI感"问题；11)特斯拉Grok车载AI助手即将上线；12)谷歌Gemini新增视频分析功能。

人工智能开发者技术趋势
荐AI日报：阿里云通义灵码AI IDE上线；小米多模态大模型Xiaomi MiMo-VL开源；黑森林实验室推出FLUX.1Kontext

【AI日报】今日AI领域重要动态：1)阿里云推出通义灵码AI IDE，集成千问3模型，显著提升编程效率；2)小米开源多模态大模型MiMo-VL-7B，性能超越更大规模闭源模型；3)黑森林实验室发布FLUX.1Kontext图像生成模型，支持文本和参考图像多次编辑；4)Midjourney V7渲染速度提升40%，新增用户投票功能；5)DeepSeek R1-0528大模型在AGI领域取得突破，性能超越xAI等公司；6)Hugging Face进军机器人市场，推出开源人形机器人HopeJR；7)字节跳动火山方舟接入DeepSeek最新大模型；8)Anthropic开源"电路追踪"工具，揭示大模型决策过程；9)阿里巴巴开源自主搜索AI智能体WebAgent；10)Hume发布低延迟语音语言模型EVI3；11)Manus Slides支持一键生成专业幻灯片；12)Runway Gen-4 References支持手机照片艺术化处理。

人工智能 AI开发工具编程效率
荐AI日报：ChatGPT支持MCP和会议记录功能；Cursor 1.0 版本重磅发布；Midjourney视频功能将在本月上线

本期AI日报聚焦多项AI领域突破：1）OpenAI为ChatGPT新增企业数据连接和会议记录功能；2）Cursor 1.0发布集成BugBot等开发工具；3）Midjourney即将推出视频生成功能；4）秘塔AI搜索新增PPT导出功能；5）Manus推出文本生成视频工具挑战Sora；6）法国Mistral发布企业级编程助手；7）英伟达推出文档处理专用AI模型；8）腾讯公益引入大模型提升互动体验；9）Firecrawl推出网页抓取API工具；10）Bland AI实现超真实语音克隆；11）报告显示AI训练成本逼近百亿美元；12）开源设计工具Jaaz支持批量图像生成；13）《逆水寒》手游接入AI实现图片动效玩法。

OpenAI ChatGPT 人工智能
荐AI日报：阿里开源3D数字人项目MNN TaoAvatar；MiniMax Agent上线；罗永浩数字人直播再探“AI+IP”带货模式

本文汇总了AI领域最新动态：1）阿里开源MNN+TaoAvatar技术，实现手机端3D数字人实时交互；2）MiniMax升级AI工具Agent，新增智能图像搜索和多语言支持；3）罗永浩数字人将登陆百度电商直播；4）OpenAI员工套现近30亿美元，软银成最大接盘方；5）ChatGPT推出深度研究和语音模式升级；6）Meta发布V-JEPA2模型，提升机器人环境适应能力；7）AMD与OpenAI合作推出新一代AI芯片；8）Google Gemini集成Imagen4图像生成模型；9）谷歌AI实现10公里级精准天气预报；10）Gartner预测到2028年80%的AI应用开发时间将缩短50%。

人工智能虚拟现实 3D数字人
荐AI日报：通义千问开源Qwen3向量模型；字节跳动图像编辑模型SeedEdit 3.0；ElevenLabs推v3语音模型

本文汇总了近期AI领域的重要动态：1)通义千问发布Qwen3-Embedding系列模型，在多语言文本处理表现优异；2)字节跳动推出图像编辑模型SeedEdit3.0，提升细节保持能力；3)ElevenLabs发布情感语音合成系统Eleven v3 Alpha；4)Anthropic推出面向国家安全的Claude Gov模型；5)可灵AI月收入连续两月超1亿元；6)Meta公布智能眼镜Aria Gen2技术细节；7)爱诗科技上线AI视频工具"拍我AI"；8)富国银行预测2030年ChatGPT广告收入将达千亿美元。

人工智能深度学习文本处理
荐AI日报：昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

本文介绍了AI领域最新动态：1)昆仑万维推出全球首款AI+Agent架构的Office智能体应用；2)研究显示ChatGPT能提升K12学生成绩近87%；3)谷歌视频生成工具Veo3扩展至更多地区；4)谷歌发布三款Gemma模型变体，覆盖医疗、手语翻译和海豚语言研究；5)VideoTutor实现一句话生成定制教学视频；6)字节跳动开源多模态模型BAGEL；7)Rork支持无代码开发iOS/Android应用；8)AingDesk降低AI助手开发门槛；9)Claude4登陆亚马逊Bedrock平台；10)Youware通过MCP协议提升网页生成能力。这些创新展示了AI技术在各领域的快速发展和应用潜力。

人工智能移动办公 AI应用
荐AI日报：阿里开源长文本深度思考模型QwenLong-L1；GPT-4o语音模式上线唱歌功能；秘塔AI搜索推出全新“极速”模型

本文汇总了AI领域最新动态：1)中国信通院发布智能体开发标准，推动AI商业化进程；2)阿里推出QwenLong-L1-32B长文本推理模型，性能媲美Claude-3；3)GPT-4o语音模式升级，新增唱歌功能；4)秘塔AI搜索推出极速模型，响应速度达400tokens/秒；5)谷歌发布LMEval评估框架，统一大模型评测标准；6)Chrome浏览器集成Gemini AI助手；7)阿联酋全民免费使用ChatGPT Plus；8)苏州成立60亿元AI产业基金；9)法国Kyutai实验室推出10秒定制语音的Unmute系统；10)UAV-Flow项目实现无人机语音精准控制；11)Claude将升级支持百万字上下文和记忆功能；12)百度心响iOS版上线；13)夸克推出高考深度搜索功能；14)Chrome v137开发者工具升级；15)美团AI业务接近GPT-4o水平；16)Direct3D-S2实现3D生成速度提升10倍；17)OpenAI计划2026年推出首款AI硬件。

人工智能软件开发 AI标准
荐AI日报：Midjourney重磅推出视频生成模型V1；OpenAI将在今年夏季发布GPT-5；谷歌推Search Live语音搜索功能

本期AI日报聚焦多项AI领域重要进展：1) Midjourney推出首款视频生成模型V1，支持21秒视频生成；2) OpenAI CEO确认GPT-5将于今夏发布；3) Google上线语音对话搜索功能Search Live；4) OpenAI开源客户服务代理框架；5) MiniMax发布智能代理Agent；6) 恶意工具WormGPT出现新变种；7) OpenAI推出企业版ChatGPT折扣；8) DeepSite V2支持3D网页动画生成；9) AI工具可秒变PPT；10) 比亚迪与字节跳动合作开发动力电池技术；11) 马斯克否认xAI巨额亏损传闻。

AI日报 Midjourney 视频生成模型

热文

3 天
7天

AI日报：Luma AI文生视频模型炸裂程度堪比Sora；Stable diffusion 3 正式开源；Suno正式发布音频输入功能；阿里发布“融图”工具MimicBrush

荐AI日报：MiniMax发布视频智能体Hailuo Agent；昆仑万维开源 Skywork-SWE-32B；B站接入Qwen 3等模型

荐AI日报：MiniMax-M1开源；阿里Qwen3升级版适配苹果MLX架构；月之暗面发布新模型Kimi-Dev-72B

荐AI日报：MiniMax推视频生成模型Hailuo 02；Cursor Pro取消500次请求限制；谷歌发布AI模型 Gemini 2.5 Flash-Lite

荐AI日报：阿里云通义灵码AI IDE上线；小米多模态大模型Xiaomi MiMo-VL开源；黑森林实验室推出FLUX.1Kontext

荐AI日报：ChatGPT支持MCP和会议记录功能；Cursor 1.0 版本重磅发布；Midjourney视频功能将在本月上线

荐AI日报：阿里开源3D数字人项目MNN TaoAvatar；MiniMax Agent上线；罗永浩数字人直播再探“AI+IP”带货模式

荐AI日报：通义千问开源Qwen3向量模型；字节跳动图像编辑模型SeedEdit 3.0；ElevenLabs推v3语音模型

荐AI日报：昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

荐AI日报：阿里开源长文本深度思考模型QwenLong-L1；GPT-4o语音模式上线唱歌功能；秘塔AI搜索推出全新“极速”模型

荐AI日报：Midjourney重磅推出视频生成模型V1；OpenAI将在今年夏季发布GPT-5；谷歌推Search Live语音搜索功能

热文

京东618战报公布：订单破22亿单下单用户同比增加超100%

孟羽童回应一手好牌打得稀烂：不纠结过去

刘强东点外卖给骑手1000元小费：此前达达已完成私有化

小米618全渠道累计支付金额破355亿元：刷新历年大促纪录

字节小米位列中国全球化品牌前二中国全球化品牌50强出炉

SpaceX回应星舰爆炸：无人员伤亡及周边危害

理想i8已到最后筹备阶段将于7月下旬发布

微信公众平台与微信小店深度联动公众号可带货微信小店

张朝阳退回的LABUBU换了一辆车：新去向揭晓

京东618战报公布：订单破22亿单下单用户同比增加超100%

苹果用户再也不敢乱用emoji了客服回应：iOS和安卓有差异性

孟羽童回应一手好牌打得稀烂：不纠结过去

REDMI K80至尊版外观公布：金属中框+玻纤背板

小米MIX Flip 2开启预约：将于6月底正式发布

刘强东点外卖给骑手1000元小费：此前达达已完成私有化

小米618全渠道累计支付金额破355亿元：刷新历年大促纪录

字节小米位列中国全球化品牌前二中国全球化品牌50强出炉

站长商机