AI日报：文本转语音模型Fish Speech；Meta 3D Gen发布，1分钟快速构建3D模型；AI生成熊猫吃泡面视频刷屏抖音

2024-07-03 15:32 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://top.aibase.com/

1、可以媲美GPT-SoVITS的低显存开源文本转语音模型Fish Speech

Fish Speech是一款由fishaudio开发的全新文本转语音工具，支持中英日三种语言，语音处理接近人类水平，使用Flash-Attn算法处理大规模数据，提供高效、准确、稳定的TTS体验。

【AiBase提要：】
😊 完美支持中英日三种语言，语音处理接近人类水平
😊 支持语音克隆，只需提供一段参考语音，即可迅速完成克隆
😊 对显存要求极低，仅需4GB，支持多种不同的语音生成模型
在线体验地址：https://top.aibase.com/tool/fish-audiowenbenzhuanyuyin
详情点此查看：https://www.aibase.com/news/9979

2、Meta 3D Gen发布，1分钟内快速实现从文本生成3D资产

最近研究人员发布了名为Meta3D Gen（3DGen）的全新技术，能够在不到一分钟内快速实现从文本生成3D资产，为用户带来高质量的纹理和材质体验。该技术集成了Meta3D AssetGen和Meta3D TextureGen，提供了高效的3D模型创建方式，比现有解决方案快三到十倍。

【AiBase提要:】
🚀 Meta 3D Gen系统可以在不到一分钟内创建高质量的3D资产
💡 Meta3D Gen集成了Meta3D AssetGen和Meta3DTextureGen两大核心技术
✨ AssetGen支持生成基于物理渲染的材质，具有真实的再光照效果。
详情链接:https://ai.meta.com/research/publications/meta-3d-gen/

3、微软开源GraphRAG，构建知识图谱增强大模型的问答、推理等能力

微软最新开源的GraphRAG系统利用实体知识图谱增强大模型的搜索、问答、摘要、推理等能力，特别适用于处理大规模数据集。通过构建全局性的实体知识图谱，GraphRAG能够捕捉文本中复杂联系和交互，提高检索准确性和全面性。此外，GraphRAG对tokens需求低，节省开发成本。在综合测试中表现优异，是目前最佳的RAG方法之一。

【AiBase提要:】
💡 GraphRAG通过构建实体知识图谱来增强大模型的搜索、问答、摘要、推理等能力，特别擅长处理大规模数据集。
💡 GraphRAG的核心包括构建实体知识图谱和生成社区摘要两个步骤，通过社区摘要提取数据集中相关信息，生成更全面和准确的答案。
💡 GraphRAG对tokens的需求很低，能够帮助开发者节省成本。在综合测试中表现优异，是目前最佳的RAG方法之一。
详情链接:https://top.aibase.com/tool/graphrag

4、微软推出设计工具 Designer：一句话生成个性化贺卡

微软最新推出的Microsoft Designer的"Greeting Cards"功能为用户带来前所未有的个性化贺卡制作体验，展示了AI技术在日常生活中的实际应用。

【AiBase提要:】
🎨 文字转设计：用户输入简单描述，AI转化为独特贺卡设计。
🖼️ AI生成图像：贺卡设计灵感来源用户描述，由AI生成精细图像。
✏️ 可编辑内容：贺卡内页提供可编辑文本，满足用户个性化需求。
详情链接:https://designer.microsoft.com/

5、腾讯翻译智能体公司TRANSAGENTS上线

TRANSAGENTS是腾讯AI实验室开发的专门用于进行文学翻译的多智能体虚拟翻译出版公司，通过模拟真实翻译公司的虚拟角色合作模式，实现流畅高效的文学作品翻译。使用TRANSAGENTS进行文学翻译的成本比专业人类翻译员低80倍，且在领域特定知识需求下表现超越人类翻译。该平台展示了AI技术在文学翻译领域的潜力，为文学创作和传播提供新可能性。

【AiBase提要:】
🔑 TRANSAGENTS是多智能体虚拟翻译出版公司，专为超长文学内容翻译而生，模拟真实翻译公司角色合作模式。
💰 使用TRANSAGENTS进行文学翻译的成本比专业人类翻译员低80倍，降低翻译成本，促进优秀文学作品传播。
🌟 TRANSAGENTS在领域特定知识需求下表现超越人类翻译，受到人类评估者和高级语言模型的青睐。
详情链接:https://top.aibase.com/tool/transagents

6、Suno推出iOS客户端支持语音生成音乐

Suno公司推出的iOS应用让手机变成虚拟音乐工作室，引领音乐制作革命，可能改变数字时代下创意表达方式。面临法律挑战，但坚称技术旨在生成全新作品。Suno的iOS应用代表AI生成音乐向大众迈出的重要一步，引领音乐界未来潮流。

【AiBase提要:】
🎵 音乐工作室在手机上：用户输入文字提示或哼唱即可生成完整歌曲，满足不同音乐风格需求。
⚖️ 法律挑战与坚持立场：面临唱片公司起诉，坚称AI生成全新作品，法律斗争结果或影响AI音乐产业发展。
🔮 AI音乐未来展望：AI与人类音乐创作界限模糊，引发关于创造力、音乐产业未来等深刻问题。

7、苹果公司高管以观察员身份加入 OpenAI 董事会

我认为这篇文章报道了苹果公司高管 Phil Schiller 以观察员身份加入 OpenAI 董事会的消息。这将使苹果更了解 OpenAI 的内部运作，并有望在 iOS 和 macOS 中整合 ChatGPT，提升 Siri 的智能化水平。微软也加入了 OpenAI 董事会，使得合作关系更加复杂。

【AiBase提要:】
🍏 苹果公司高管 Phil Schiller 加入 OpenAI 董事会，担任观察员角色，有助于加深对 OpenAI 的了解。
🤖 Schiller 加入董事会将促进在 iOS 和 macOS 中整合 ChatGPT，提升 Siri 的智能化水平。
🔗 微软也以非投票观察员身份加入 OpenAI 董事会，使得 OpenAI 董事会更加复杂。

8、AI生成的熊猫吃泡面视频抖音获赞超42万网友直呼太逼真

最近，抖音上的AI生成视频技术达到了新高度，熊猫和猫咪用筷子吃泡面的视频让人难以置信。虽有瑕疵，但未来AI视频将更逼真。

QQ截图20240703114243.jpg

【AiBase提要:】
🐼 视频逼真程度让人叹为观止，引发网友热议。
😺 AI技术在视频制作领域应用广泛，为创作者和观众带来全新体验。
💻 国内外视频大模型竞争白热化，AI整活影视剧名场面在抖音挑战榜上位居Top26。
详细内容：https://www.aibase.com/news/9993

9、网友将GPT-4V接入家中摄像头百万网友围观他做这事！

一位国外网友将GPT-4Vision接入家中摄像头，引发百万网友围观。这种行为展示了AI技术在日常生活中的潜力，但也引发了隐私和安全问题的讨论。随着技术发展，我们期待更多创新且安全的应用出现。

【AiBase提要:】
👀 GPT-4Vision接入家中摄像头，引发百万网友围观。
🔒 引发隐私和安全问题讨论，提醒人们关注个人信息保护。
💡 展示AI技术在日常生活中的潜力，启发人们对技术应用的思考。
详细内容：https://www.aibase.com/news/9995

10、怒了！苏格兰艺术家“自毁”作品，抗议AI对艺术的负面影响

苏格兰艺术家迈克尔・福布斯以涂抹自己的艺术作品的方式，表达对人工智能（AI）对艺术领域的负面影响的抗议。福布斯已经在四幅画作上进行了 “编辑”，其中包括约翰・列侬和美国歌手泰勒・斯威夫特的作品。他希望通过自己的举动唤起对 AI 在艺术领域侵权行为的重视。艺术家们已经无法与计算机生成的图像竞争，导致许多人放弃了艺术家的职业。

【AiBase提要:】
⭐ 苏格兰艺术家迈克尔・福布斯以涂抹自己的艺术作品的方式，表达对人工智能（AI）对艺术领域的负面影响的抗议。
⭐ 福布斯已经在四幅画作上进行了 “编辑”，其中包括约翰・列侬和美国歌手泰勒・斯威夫特的作品，他希望通过自己的举动唤起对 AI 在艺术领域侵权行为的重视。
⭐ 艺术家们已经无法与计算机生成的图像竞争，导致许多人放弃了艺术家的职业。

（举报）

相关推荐

关键词：

文本转语音

Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

Soul App近日开源其播客语音合成模型SoulX-Podcast，专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言，可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外，在通用语音合成及克隆任务中表现优异，能灵活调节节奏与副语言元素（如笑声），提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

语音合成模型 SoulX-Podcast 多轮对话
DeepSeek开源3B OCR模型：长文本识别达97%精度

DeepSeek在GitHub开源新一代OCR模型，采用创新光学二维映射压缩技术，在长文本识别场景实现97%准确率。模型通过动态压缩生成最优视觉特征令牌，较传统方法减少60%计算冗余。实验显示在1:20压缩率下仍保持60%以上准确率，显著优于同类模型。该技术路径为OCR系统小型化提供解决方案，其动态压缩策略对大型语言模型的记忆管理机制具有重要启示。

DeepSeek-OCR 光学二维映射压缩长文本识别
VITA平台赋能AI办公，沸蛇AI语音鼠标提升办公效率

云决科技推出VITA一站式AI办公平台，结合自研AI语音鼠标，通过软硬件协同创新提升企业效率。该平台集成DeepSeek等大模型，用户无需切换工具，语音即可调用文字处理、数据分析、创意设计等多元功能，实现会议纪要生成、PPT自动制作、视频一键合成等操作，节省80%工作时间。针对教育、IT、行政等不同行业提供专属解决方案，整合100多个AI应用场景和200多种模板，持续优化产品功能，致力于成为职场人士提升效率的智能助手。

智能办公 AI办公平台办公效率
豆包语音合成模型 2.0 重磅升级，语义理解 + 情感演绎双突破

10月16日，火山引擎升级豆包语音合成模型2.0与声音复刻模型2.0。新模型基于大语言模型架构，具备深度语义理解能力，实现从文本朗读到情感表达的进化。对话式合成支持多轮交互，声音复刻仅需5秒即可还原音色。针对教育场景优化，复杂公式符号朗读准确率达90%，覆盖数学、化学等全学科。目前模型已在火山引擎语音平台上线，为OPPO、Keep等客户提供多场景语音服务。

语音合成声音复刻语义理解
声网与Oopz达成战略合作共同打造游戏语音场景AI降噪极致体验

游戏语音头部平台Oopz与声网达成战略合作，聚焦游戏开黑场景中的噪音问题。双方将结合AI降噪技术，针对复杂多变噪音环境，解决降噪不彻底、过度降噪等痛点，提升玩家沉浸式开黑体验。未来合作将覆盖连麦降噪、环境音消除等方向，优化主播端功能，共同打造更稳定流畅的语音解决方案。

游戏语音 AI降噪战略合作
荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

本期AI日报聚焦多项技术突破：豆包推出全自动有声剧系统，实现98%角色识别准确率；Adobe Firefly Image 5支持400万像素原生输出及AI音轨生成；Soul发布90分钟无中断播客生成模型；360推出全球首款L2-L4全栈智能平台；IBM发布可在普通设备运行的Granite 4.0 Nano模型。市场方面，移动端AI用户突破7亿，豆包领跑原生应用；PayPal与OpenAI合作使ChatGPT集成支付功能；谷歌推出AI营销工具Pomelli，可基于URL自动生成营销内容。

AI有声剧豆包语音多角色语音合成
客服回应iPhone通话语音隔离：是“语音突显”功能

今日，一则关于iPhone通话降噪的讨论登上微博热搜，多位网友实测称开启特定功能后，即便身处嘈杂环境通话，对方也几乎听不到背景噪音。对此，苹果官方客服回应称，该功能实际为iOS15及以上系统内置的“语音突显”模式，需用户手动开启后方可生效。

iPhone通话降噪语音突显模式 iOS15功能
Xbox增强辅助功能：新增语音转文本和文本转语音

虽然说游戏可以适用于全球所有人，但是游戏和游戏平台的设计无法总是考虑到所有人。幸运的是，不少开发商和游戏主机制造商已经在无障碍环境方面取得了进展，其中比较值得称道的就是微软的 Xbox Adaptive Controller。在今年6月放出的 Xbox 更新中，微软再次引入了语音转文本、文本转语音功能，能够帮助更多人享受游戏的乐趣。虽然说这项功能只是一个小小的更新，但是对于那些听力、语言表达存在障碍的游戏玩家来说这可能一个重大的

游戏 xbox 微软
Deepgram推创新文本转语音模型Aura 支持实时文本转语音

深瞳公司推出了一款名为Aura的全新文本转语音模型，旨在满足实时语音AI代理的需求。随着大型语言模型的普及，语音交互成为访问LLMs及其解锁体验的主要手段。计划于明年初正式发布开发者可以通过加入Aura的等待列表来获取早期体验并提供直接反馈。

Deepgram 语音
iOS 7带给开发者5大新鲜事文本转语音等

科技博客9to5Mac近日针对苹果在iOS7中向开发者开放的新API和新功能做了汇总，其中涉及文本转化语音、背景下载、应用内购买，视差效果和3D地图等。

苹果 iOS7 3D地图

今日大家都在搜的词：

热文

3 天
7天

AI日报：文本转语音模型Fish Speech；Meta 3D Gen发布，1分钟快速构建3D模型；AI生成熊猫吃泡面视频刷屏抖音

Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

DeepSeek开源3B OCR模型：长文本识别达97%精度

VITA平台赋能AI办公，沸蛇AI语音鼠标提升办公效率

豆包语音合成模型 2.0 重磅升级，语义理解 + 情感演绎双突破

声网与Oopz达成战略合作共同打造游戏语音场景AI降噪极致体验

荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

客服回应iPhone通话语音隔离：是“语音突显”功能

Xbox增强辅助功能：新增语音转文本和文本转语音

Deepgram推创新文本转语音模型Aura 支持实时文本转语音

iOS 7带给开发者5大新鲜事文本转语音等

今日大家都在搜的词：

热文

iPhone锁屏滑动相机能关闭了苹果iOS 26.1 RC准正式版发布

AI日报：Hailuo 2.3发布；豆包AI编程史诗级升级；马斯克推出AI

华为余承东：鸿蒙智行全系交付突破100万台仅用43个月

一加Ace 6开启预售：售价2599元起

AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅

20周年款iPhone将配自研相机并搭载自研定制LOFIC传感器

网信办宣布开展“整治网络直播打赏乱象”专项行动

小米17 Pro系列妙享背屏全新掌机游戏等新功能上线

一加15今日开售：售价3999元起

美股4万亿美元市值上市公司已达3家苹果、微软、英伟达组成三巨

iPhone锁屏滑动相机能关闭了苹果iOS 26.1 RC准正式版发布

一加15今晚发布定位全能水桶机

AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度

红米REDMI K90全方位提升雷军：是不是越来越有旗舰气质

AI日报：Hailuo 2.3发布；豆包AI编程史诗级升级；马斯克推出AI

余承东曝鸿蒙智行新款享界S9将于11月上市

iPhone18发布或推迟苹果明年9月只发Pro系列和Fold折叠屏

华为余承东：鸿蒙智行全系交付突破100万台仅用43个月

华为MatePad Pro流金典藏版开卖：售价7799元

华为MatePad Mini典藏版今日开售：售价5999元起

站长商机