AI日报：字节推王炸级语音生成模型Seed-TTS；Suno新功能被Udio抢跑；腾讯发布开源混元DiT加速库；即梦全量上线实时画布功能

2024-06-06 14:48 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://top.aibase.com/

1、字节推语音生成模型Seed-TTS 擅长感情控制，声音与真人无异

这篇文章介绍了字节跳动团队提出的新型语音生成模型Seed-TTS，该模型基于自回归Transformer架构，具有极高的语音质量和表现力，难以区分与人类语音的差异。它在情感控制、小说配音和跨语言内容创作等方面表现出色，通过自我蒸馏和强化学习技术提升了发音的自然性和可控性。Seed-TTS在语音合成领域带来了显著进展，为未来的语音合成技术开辟了新的可能性。

【AiBase提要：】
🎯 字节跳动团队推出新型语音生成模型Seed-TTS，能生成自然且表现力丰富的语音。
🎯 情绪控制方面表现出色，能够调整生成语音的情感属性，以及语调和说话风格
🎯 能够模拟复杂的情感和语境，特别适合用于小说朗读、视频配音等场景。
产品地址：https://top.aibase.com/tool/seed-tts

2、Stability AI发布AI音频模型Stable Audio Open

Stable Audio Open是Stability AI推出的开源文本转音频模型，可生成长达47秒的音频样本和音效，适用于音乐制作和声音设计。用户可以创建鼓点、乐器乐段、环境声音等音频元素，支持音频变化和风格转换。模型提供了稳定的音频生成质量和长度，用户可根据自定义音频数据微调模型，提高生成音频的质量和可控性。

【AiBase提要:】
🔊 Stable Audio Open是开源的文本转音频模型，生成长达47秒的音频样本和音效
🎶 模型支持创建鼓点、乐器乐段、环境声音等音频元素
🔧 用户可根据自定义音频数据微调模型，提高生成音频的质量和可控性
详情链接:https://top.aibase.com/tool/stable-audio-open-1-0

3、Suno新功能被Udio抢跑上传任意音频Udio自动帮延长创作

这篇文章介绍了Suno原本计划推出的新功能被竞争对手Udio抢先发布的情况。Udio推出了一系列更新，帮助用户上传音频片段并自动解析旋律和和弦，创作出美妙的音乐，并提供了多项便利功能。

【AiBase提要】
🎵 Udio发布了一系列更新，用户只需上传任意音频片段，Udio就会帮你解析旋律和和弦，分分钟给你创作出一首美妙的音乐。
🎵 提供了丰富的提示词汇和灵感来源，帮助用户扩展音乐想法和寻求创作灵感。
🎵 注意，目前该功能仅对付费用户开放
产品入口：https://top.aibase.com/tool/udio
详情点此查看：https://mp.weixin.qq.com/s/QO_ucbMUD-6UJ1gs_j340A

4、Adobe更新隐私条款意味着有权将用户作品用于训练AI

Adobe最近更新了隐私条款，引发用户关注和担忧。用户担心设计作品失去隐私，可能被用于训练人工智能或内容审查，可能导致设计师与客户信任破裂，影响职业发展。引发个人隐私权和知识产权保护讨论。

【AiBase提要:】
🔍 Adobe要求用户同意新使用条款，包括访问用户创作内容的权利。
🔍 设计师和艺术家作品可能失去隐私，用于训练人工智能或内容审查。
🔍 更新后的Adobe隐私条款引发用户对设计工作隐私的担忧。
详情：https://www.chinaz.com/2024/0606/1621769.shtml

5、腾讯混元发布开源文生图大模型混元DiT加速库

腾讯混元发布了针对开源文生图大模型混元 DiT 的加速库，可将推理时间缩短75%，生图时间大幅缩短。用户可通过三行代码调用模型，无需下载原始代码。腾讯混元表示将继续优化混元 DiT 的开源生态，共建视觉生成开源生态，推动大模型行业发展。

【AiBase提要:】
🚀 加速推理时间缩短75%
💻 三行代码调用模型，无需下载原始代码
🌱 共建视觉生成开源生态，推动大模型行业发展
详情链接:https://dit.hunyuan.tencent.com/

6、MiGPT项目：将小爱音箱接入ChatGPT和豆包

MiGPT项目将小爱音箱、米家智能设备与ChatGPT技术相结合，创造智能贴心的家庭助手，实现家庭自动化并建立情感联系。项目主要亮点包括LLM回答、角色扮演、流式响应、长短期记忆、自定义TTS和智能家居Agent。项目提供两种启动方式以适应不同用户需求，配置参数需用户自定义以确保连接正常。

【AiBase提要:】
🤖 小爱音箱利用ChatGPT等大型语言模型回答问题，提供信息和帮助。
👩‍💼 小爱音箱能根据场景和用户需求快速切换角色，如完美伴侣或贴心闺蜜。
🔊 系统即时响应用户指令，提供流畅交互体验，记忆对话历史使对话更自然默契。
详情链接:https://top.aibase.com/tool/migpt

7、猿辅导旗下 AI 设计工具 Motiff 妙多全球发布

Motiff 妙多是一款定位为 AI 时代设计工具的界面设计软件，通过 AI 技术优化设计流程，提高生产效率，为用户带来前所未有的设计体验。该软件带来多项创新，包括 AI 复制、AI 布局、AI 设计系统创建、AI 设计系统维护、AI 一致性检查等多个 AI 功能，是国内首个自研图形渲染引擎的界面设计软件。

【AiBase提要:】
🚀 Motiff 妙多通过 AI 技术优化设计流程，提高生产效率，为用户带来前所未有的设计体验。
🎨 软件带来多项创新，包括 AI 复制、AI 布局、AI 设计系统创建、AI 设计系统维护、AI 一致性检查等多个 AI 功能。
💡 Motiff 妙多展示了 AI 工具箱、AI 设计系统和 AI 实验室，有效提升了界面设计行业的生产力。
详情链接:https://top.aibase.com/tool/motiff-miaoduo

8、即梦全量上线实时画布功能

即梦宣布全量上线实时画布功能，用户可以通过简单涂抹形状并添加提示词定制图像，让AI画图更可控。保存为新图层后可继续优化，定稿后保存为图片。

【AiBase提要:】
🎨 实时画布功能让用户简单涂抹形状并添加提示词定制图像，提高用户体验。
🖌️ 通过大致画出形状，用户可以获得定制化的图像，满足用户需求。
💡 保存为新图层后可继续调整优化，提升图像质量。
详情链接:https://top.aibase.com/tool/jimengdreamina

9、谷歌AI概览功能触发频率大幅下降

谷歌的人工智能概述现在只在不到15%的查询结果中显示，与过去84%的情况相比发生了显著变化。人工智能在搜索结果中的呈现方式经历了调整，以提高搜索质量。文章指出人工智能在搜索中的作用不断演进，虽然概述功能减少，但人工智能在搜索中的应用是不可避免的变化。

【AiBase提要:】
⭐ 谷歌AI概览在查询结果中的触发频率从84%下降至不到15%
⭐ 谷歌减少了人工智能引文与传统搜索结果的重叠，提升搜索质量
⭐ 人工智能在搜索中预测并展示后续问题，搜索者进行多次查询

10、研究人员开发出能识别运动员情绪的人工智能

研究人员利用计算机辅助神经网络成功从网球运动员的肢体语言中准确识别出情绪状态，展示了人工智能在情绪识别方面的潜力。然而，这项研究也引发了伦理问题，需要明确相关法律和道德问题。

【AiBase提要:】
🔍 人工智能可以准确识别网球运动员的情绪状态，展示了与人类观察者相媲美的能力。
🔍 使用实际比赛数据训练人工智能模型，提高了情绪识别的准确率。
🔍 情绪识别技术可在多领域应用，包括训练改进、团队动力提升和早期负面情绪检测。

11、Ouroboros3D：通过3D感知实现图像到3D的生成

Ouroboros3D是一个集成了多视角图像生成和3D重建的统一3D生成框架。通过递归扩散过程，实现了从图像到3D的生成。研究人员提出的这种新方法具有多个优点，包括生成更多样化和真实的视角图像，减少噪声和失真，提高生成效率。实验证明Ouroboros3D生成的3D模型具有更好的细节和准确性，接近真实的3D场景。

【AiBase提要:】
🔍 Ouroboros3D集成了多视角图像生成和3D重建，通过递归扩散实现图像到3D生成。
🔍 Ouroboros3D采用基于扩散的多视角图像生成和3D重建方法，构建统一的3D生成框架。
🔍 Ouroboros3D具有优点：生成更多样化和真实的视角图像，减少噪声和失真，提高生成效率。
详情链接:https://top.aibase.com/tool/ouroboros3d

12、Mobile-Agent-v2：让AI学会自动刷手机

Mobile-Agent-v2是一个先进的AI系统，通过多代理协作架构实现对移动设备的全面控制，提高任务完成率30%以上。该系统能够自动化完成搜索购买商品、邮件发送、导航设置和视频观看等任务，为用户带来更多便利。

【AiBase提要:】
🤖 多代理协作架构提高任务完成率30%以上
🔍 AI自动化搜索购买商品、邮件发送、导航设置和视频观看
🚀 创新的多代理协作架构提升任务处理灵活性和效率
详情链接:https://arxiv.org/pdf/2406.01014

13、美国监管机构将对微软、OpenAI和英伟达展开反垄断调查

这篇文章报道了美国司法部和联邦贸易委员会达成协议，将针对微软、OpenAI和英伟达展开反垄断调查。监管机构对人工智能产业的关注度显著提高，反映出AI行业的重要性和影响力。

【AiBase提要:】
🔍 美国司法部和FTC将分别调查英伟达、OpenAI和微软的行为
💰 微软投资OpenAI子公司获得股权，FTC调查微软收购Inflection AI
🔒 监管机构关注AI行业结构和趋势，强调AI技术对公司带来的优势

（举报）

相关推荐

关键词：

Seed-TTS

荐AI日报：Kimi全新音频基础模型Kimi-Audio；阶跃星辰开源图像编辑模型Step1X-Edit；夸克AI超级框上线 “拍照问夸克”

本期AI日报聚焦多项AI技术突破与应用：1)Moonshot AI推出开源音频模型Kimi-Audio，基于13亿小时训练数据，支持语音识别等任务；2)阶跃星辰开源图像编辑模型Step1X-Edit，展现强大生成能力；3)夸克AI上线"拍照问夸克"功能，实现视觉问答；4)苹果iOS18.5将在中国推送，带来智能功能；5)谷歌发布601个生成式AI应用案例，覆盖多行业；6)微软推出深度整合Windows的UFO²自动化系统；7)OpenAI升级ChatGPT至GPT-4o版本，提升STEM领域能力；8)Ema公司推出高性价比语言模型EmaFusion；9)Liquid AI发布面向边缘设备的Hyena Edge模型；10)LemonAI推出实时音视频数字人产品Slice Live。此外，国内方面，智谱与生数科技达成战略合作推动大模型发展，宝马中国宣布新车将接入DeepSeek技术。

AI日报音频技术开源模型
荐AI日报：ChatGPT重磅上线图像库功能；白嫖！Veo2登陆谷歌AI Studio；蚂蚁百宝箱推“MCP专区”

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、报道称字节跳动整合 AI 研发团队，AI Lab 即将并入 Seed字节跳动正在进行AI研发团队的整合，将独立的字节AI Lab并入Seed团队。这一举措体现了字节在AI领域战略布局的调整，旨在进�

字节跳动 AI研发 AI
荐AI日报：腾讯混元3D生成模型2.5版本发布；海螺推出图像人物参考功能；百度上线移动端超级智能体心响App

本文介绍了多款AI领域的新产品和技术进展：1)Kortix-AI推出开源通用AI智能体平台Suna；2)腾讯混元3D生成模型升级至2.5版本；3)海螺AI推出基于单张图像生成多角度角色图像功能；4)百度发布"心响"App整合多智能体协作；5)Nari Labs开源媲美真人的对话语音模型Dia；6)Grok新增视觉处理和多语言支持；7)Genspark推出AI幻灯片工具；8)Character.AI发布让静态图片"说话"的AvatarFX模型；9)pad.ws结合白板和代码编辑器；10)OpenBMB开源社区推出长文本生成模型"卷姬"；11)腾讯推出AI阅读助手"企鹅读伴"；12)OpenAI有意收购Chrome浏览器；13)字节跳动调整AI产品线布局。这些创新展现了AI技术在自动化、3D生成、语音交互、内容创作等领域的快速发展。

人工智能 AI产品开源平台
荐AI日报：国内首个多模态AI程序员上岗；字节启动Top Seed计划招募AI人才；DeepSeek R1T Chimera上线OpenRouter

【AI日报】今日AI领域重要动态：1.百度发布文心快码3.5及多模态AI程序员"文心快码Comate Zulu"，提升开发效率；2.字节跳动启动"Top Seed"计划，招募30名AI博士人才；3.DeepSeek开源R1T Chimera模型上线OpenRouter平台；4.阿里AI工程师余亮获"全国劳动模范"称号；5.开源图像编辑工具Step1X-Edit登陆Hugging Face，性能媲美GPT-4o；6.谷歌被曝每月向三星支付巨额资金预装Gemini应用

人工智能 AI编程工具多模态交互
荐AI日报：通义千问Qwen3重磅发布；抖音AI搜索能力开放；ChatGPT 搜索新增网购功能；Suno V4.5版本将发布

本期AI日报重点内容： 1. 通义千问发布Qwen3大模型，在代码、数学和通用能力方面表现突出，支持两种思考模式并开源多个模型权重 2. 抖音开放AI搜索能力接口，为第三方应用提供丰富内容资源 3. ChatGPT新增网购功能，通过对话获取个性化商品推荐 4. Suno AI即将推出V4.5版本，提升音乐生成真实度 5. Simular AI登陆macOS，打造本地化智能助手 6. 暗月之面开源Kimi-VL模型，可处理文本、图像和视频 7. UCLA与Meta推出d1框架，提升大语言模型推理速度 8. 通义灵码上线Qwen3编程智能体 9. Gen-4References图像生成技术惊艳亮相 10. Hugging Face推出可编程机械臂SO-101 11. Windsurf推出全新品牌标志 12. Ollama全面支持Qwen3模型本地部署

人工智能大型语言模型 Qwen3
荐AI日报：阿里通义万相首尾帧生视频模型；豆包开源Seed智能体模型UI-TARS-1.5；OpenAI首发“智能体实践指南”

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里通义万相首尾帧生视频模型Wan2.1-FLF2V-14B开源阿里巴巴的通义实验室在Hugging Face和GitHub上开源了Wan2.1-FLF2V-14B模型，标志着AI视频生成技术的重大进步。该模型支持高清视频生成

AI视频生成开源模型阿里巴巴
AI日报：阿里腾讯全面支持MCP协议；阶跃星辰多模态推理模型Step-R1-V-Mini；美图WHEE图像生成模型Miracle F1

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里巴巴已宣布全面支持MCP协议腾讯紧随其后近日，中国人工智能领域迎来技术标准的变革，ModelContextProtocol成为国内AI生态的事实标准。12.英伟达发布Llama3.1NemotronUltra253B，性能�

人工智能 MCP协议阿里巴巴
荐AI日报：OpenAI下周或发布GPT-4.1系列；Pika全新AI视频功能Twists；商汤科技日日新V6震撼发布

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、报道称OpenAI下周重磅发布GPT-4.1系列，包含Mini版和Nano版OpenAI即将发布GPT-4.1系列及o3系列，标志着其在多模态和推理能力上的重大进展。新加坡在AI技能学习上投入的时间显著高于其他亚太国家，显示出其在AI人才培养方面的竞争力。

OpenAI GPT-4.1 多模态AI
荐AI 潜入Reddit，骗过99%人类！苏黎世大学操纵实测“AI洗脑术”，网友怒炸：我们是实验鼠？

苏黎世大学研究团队在Reddit的"ChangeMyView"论坛进行未经授权的AI操控实验，引发争议。研究人员伪装成普通用户发布1783条评论，成功改变137名用户观点，说服率达18%。实验采用三类AI角色：通用AI、模仿社区风格的AI和个性化AI（根据用户历史定制说服策略）。最受争议的是AI会虚构身份（如性侵幸存者、残疾人士等）博取信任。尽管校方辩称实验旨在警示AI操控风险且内�

AI实验社交媒体影响观点操控
ChatGPT上线图库功能：可管理AI生成图片

快科技4月16日消息，据报道，OpenAI近日宣布将为ChatGPT推出全新的Image Library图库功能，该功能将帮助用户更高效地管理和查看AI生成的图像。这项创新功能将逐步向所有用户开放，包括移动端和网页端的免费版、Plus版及Pro版用户。新功能的设计充分考虑了用户体验的便捷性。用户只需点击ChatGPT侧边栏的Library入口，就能进入一个直观的图像网格界面。在这个界面中，用户可以轻�

OpenAI ChatGPT Image

热文

3 天
7天

AI日报：字节推王炸级语音生成模型Seed-TTS；Suno新功能被Udio抢跑；腾讯发布开源混元DiT加速库；即梦全量上线实时画布功能

热文

站长商机