AI日报：SD 3宣布开源；中文语音AIChatTTS官网上线；Veo支持单图生成视频；ElevenLabs推多样化AI音频模型

2024-06-03 16:14 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://top.aibase.com/

1、抖音：将打击使用AI技术P图侮辱他人等行为

抖音发布公告表示严厉打击网络暴力行为，已处置162件网暴舆情，警示教育施暴者近70万个。建立网络暴力线索反馈机制，提供一键防网暴功能保护用户安全。用户可申请法律咨询服务保护自身权益。

【AiBase提要:】
🚫 严厉打击网络暴力行为，处理162件网暴舆情，警示教育施暴者近70万个
🔒 建立网络暴力线索反馈机制，与公安机关合作打击违法犯罪行为
🛡 提供一键防网暴功能保护用户安全，用户可申请法律咨询服务维护权益

2、Stability AI开源SD 3：6月12日可下载不可商用

我对Stability AI宣布Stable Diffusion3 Medium开放发布日期为6月12日的消息感到兴奋。这款20亿参数的SD3 Medium模型具有照片真实感、优秀的排版效果和高性能，适合消费者系统和企业工作负载。Stable Diffusion3 Medium是Stability AI最新推出的产品，预计将为用户带来更加稳定和高效的使用体验。

【AiBase提要:】
⭐️ 照片真实感: 克服手和脸上的常见工件，提供高质量的图像，无需复杂工作流程。
⭐️ 排版优秀: 在排版上获得健壮的结果，优于更大的最先进的模型。
⭐️ 高性能: 优化的大小和效率，非常适合消费者系统和企业工作负载。
详情链接:https://stability.ai/stablediffusion3

3、英伟达发布数字人AI技术NVIDIA ACE 提升角色互动体验

NVIDIA最近推出了名为Avatar Cloud Engine （ACE）的先进数字人AI技术，旨在提升游戏和虚拟世界中角色的互动体验。该技术将游戏中的NPC赋予智能对话能力，实现自然、智能的交流，提升角色生动性和真实感。ACE技术可灵活部署在云端或本地设备，保证流畅高质量的互动体验，同时优化神经网络以减少延迟，确保实时互动。这一技术有望在游戏开发和虚拟现实领域带来革命性变革，拓展至客户服务、教育和娱乐领域，提供更自然智能的表现。

【AiBase提要:】
🗨️ 智能对话能力: ACE技术赋予游戏NPC真实对话能力，超越预设台词模式。
🎤 语音和面部动画生成: ACE利用AI技术生成真实回复，增强角色生动性和真实感。
🚀 灵活部署和低延迟: ACE可在云端或本地设备部署，确保流畅高质量互动体验，减少延迟影响。

4、Claude 3全系已支持函数调用工具Tool use

Claude 3现在支持函数调用工具Tool use，使其能够与外部工具和API进行交互，提供更动态和准确的响应。这项技术的发展展示了AI在提高工作效率和创新服务方式方面的巨大潜力。

【AiBase提要:】
🛠️ 从非结构化文本中提取结构化数据，减少手动输入工作量。
🔍 自然语言请求转换为结构化API调用，简化自助服务流程。
⏰ 协调多个Claude子代理执行细化任务，如自动协调会议时间。
详情链接:https://docs.anthropic.com/en/docs/tool-use

5、英伟达推AI游戏助手G-Assist

G-Assist是英伟达的游戏AI助手，通过语音查询回答游戏问题并个性化指导玩家。它能优化PC设置、提出游戏性能建议，甚至超频GPU。Nvidia展示的G-Assist展示了AI助手未来的可能性，尽管仍需谨慎态度。

【AiBase提要:】
⭐ G-Assist是英伟达的游戏AI助手，可指导玩家完成游戏并配置最佳设置。
⭐ 该助手可以通过语音查询回答游戏中的问题，并根据屏幕上的情况进行个性化指导。
⭐ 不仅可以优化和调整PC设置，还可以为游戏性能提出建议，并甚至超频GPU。

6、DeepMind视频生成模型Veo支持从单个参考图像生成视频片段

Google DeepMind的Veo模型是一项创新的视频生成模型，可以根据单个参考图像生成视频剪辑，并通过文本提示调整视觉风格。该模型为创意产业和视频制作领域带来新可能性，但也提醒用户注意不要分散注意力。

【AiBase提要:】
🔑 Veo模型支持从单个参考图像生成视频片段，并可调整视觉风格。
🌟 应用包括实验性工具VideoFX，用户可体验部分Veo模型功能。
💡 Veo模型具有潜力根据图像内容和文本提示生成符合用户要求的视频剪辑。
详情链接:https://blog.google/technology/ai/google-labs-video-fx-generative-ai/

7、一上线就爆火出圈！中文语音AI天花板ChatTTS官网上线

ChatTTS是一款备受关注的中文语音AI项目，上线不久就引起轰动。用户可以通过ChatTTS实现文字转语音、实时语音对话等功能，同时具有多语言支持和细粒度控制等特点。该项目适用于多种场景，包括电商直播、自媒体、在线教育和客服服务等。

【AiBase提要:】
🔊 文字转语音、实时语音对话功能
🎤 多语言支持和中英文混合表现
👥 多说话人支持和大规模训练数据应用
详情链接:https://chattts.com/

8、ControlNet作者推新项目Omost 一句话变构图小作文

Omost是一个革新性的图像生成项目，通过简单的提示词就能生成详细且准确的图像，极大地简化了图像描述的过程。用户只需输入简单提示词，即可获得高质量、符合预期的图像。同时，Omost具有自动扩展提示词、高灵活性和图像位置编码等优点，为图像生成提供了强大的工具支持。

【AiBase提要：】
⭐ 很短的提示词就可以生成非常详细并且空间表现很准确的图片
⭐ 高灵活性，保留图像布局，一句提示词即可修改元素
⭐ 提供详细描述，支持复杂图像生成，应用于AI绘画、广告创意等领域
项目页:https://top.aibase.com/tool/omost
试玩地址:https://huggingface.co/spaces/lllyasviel/Omost

9、ElevenLabs推出创新AI音频模型

ElevenLabs最近推出了一款创新的AI音频模型，可以通过文本提示生成各种音效、短乐器曲目、音景和角色声音，为内容创作者、视频游戏开发者和电影电视制片厂带来巨大福音。这项技术极大简化了音频内容创作过程，提高创作效率，拓展创意空间。

【AiBase提要:】
🔊 文本到音频转换: 用户输入文本提示，AI生成相应音效和音乐。
🎶 多样性: 能生成各种音效满足不同场景需求。
🎭 角色声音生成: 为动画、游戏或影视作品中不同角色创造独特声音。
详情链接:https://top.aibase.com/tool/elevenlabs-text-to-sound-effects

10、PixVerse发布运动笔刷功能Magic Brush 比Runway更方便和直观

PixVerse最新推出的运动笔刷功能Magic Brush极大提升了产品的可用性和用户体验，为动画和动态图像创作带来了灵活性和高效性。用户可以通过手绘箭头自定义图像区域的运动方向和距离，实现更精确的动态效果控制。操作简便直观，无需复杂学习曲线，提高了创意表达空间和工作效率。

【AiBase提要:】
✨ 自定义运动方向和距离，精确控制动态效果
🎨 操作简便直观，提升用户友好度和创意表达空间
⏱️ 简化动画制作流程，提高工作效率和创作速度
详情链接:https://top.aibase.com/tool/pixverse

11、Nvidia发布GeForce RTX增强版，为AI PC数字助手提供支持

Nvidia在Computex展会上推出了新的RTX技术，为新的GeForce RTX AI笔记本电脑提供动力，同时推出Project G-Assist技术演示为PC游戏和应用提供上下文感知的帮助。此外，Nvidia ACE数字人物平台首次亮相，为数字人物提供支持。这些技术加速了500多个PC应用和游戏以及200多个OEM笔记本设计，为超过1亿的RTX AI PC用户带来下一代AI动力体验。

【AiBase提要:】
⭐ Nvidia推出新的RTX技术，为GeForce RTX AI笔记本电脑提供动力
⭐ Project G-Assist技术演示为PC游戏和应用提供上下文感知的帮助
⭐ Nvidia ACE数字人物平台首次亮相，为数字人物提供支持

12、麦肯锡调查显示：生成式AI应用大中华区增长最快

生成式AI应用在大中华区和亚太地区蓬勃发展，65%受访者经常使用生成式AI并已开始产生商业价值。企业主要通过使用现成产品、与AI厂商合作微调模型或自主开发产品三种方式应用生成式AI。应用场景主要包括文本、代码、音频、视频、图片等生成能力，随着多模态大模型的出现，应用场景将进一步扩大【AiBase提要:】

⚙️ 生成式AI应用增长：大中华区和亚太地区成为增长最快地区，原生数字人口使用频繁是主要原因。
💼 企业应用方式：现成产品使用、与AI厂商合作微调模型、自主开发产品三种方式。
🔍 应用场景扩大：生成式AI功能与应用场景挂钩，包括文本、代码、音频、视频、图片等生成能力，随着多模态大模型出现，应用场景将进一步扩大。

13、字节跳动旗下 AI 助手豆包推出PC客户端、浏览器插件版本

作为字节跳动旗下 AI 助手豆包推出PC客户端和浏览器插件版本，为用户提供了更多便捷的AI功能体验。用户可以通过豆包实现快捷划词翻译、AI搜索、一键常驻桌面等功能，同时还支持网页与视频总结、写作和文本修改等功能。豆包的AI大模型系列涵盖了多种功能模型，为用户提供全面的AI辅助服务。

【AiBase提要:】
🔍 豆包PC客户端版本支持快捷划词翻译、AI搜索、一键常驻桌面等功能
📚 插件版提供一键总结网页与视频、写作和文本修改等功能
💡 豆包大模型系列包括豆包通用模型Pro、角色扮演模型、语音合成模型等，提供多样化的AI功能

14、沙特阿美投资中国AI初创企业智谱AI

这篇文章报道了沙特阿美旗下的Prosperity7 投资了中国生成式人工智能初创企业智谱AI，使其估值达到 30 亿美元。这一投资不仅为智谱AI带来了资金支持，也有助于其在国际市场上拓展。智谱AI在人工智能领域的发展势头强劲，受到国际资本关注。

【AiBase提要:】
🌐 智谱AI获得沙特阿美旗下Prosperity7 的 4 亿美元投资，估值达 30 亿美元。
💡 智谱AI是清华大学计算机系技术成果转化公司，由唐杰教授领衔，在生成式人工智能领域取得显著成就。
💰 智谱AI曾获得超过 25 亿元人民币融资，参与方包括多家知名机构和公司。

（举报）

相关推荐

关键词：

苹果前员工因名叫“三星”走红网络：最终他选择改名

苹果前员工因撞名三星走红网络，他最终选择改名。据媒体报道，2012年，一位名叫Sam Sung的苹果零售店员工意外走红，因他的名字Sam Sung跟苹果竞争对手三星的英文（Samsung）字母一致，而且二者的发音接近。 Sam Sung在接受采访时详细讲述了那段经历以及自己最终决定改名的原因。2012年，有人在社交平台上发布了Sam Sung的苹果工作名片，相关内容迅速传播开来。苹果方面随即�

苹果员工名字走红改名原因
锐捷极简以太彩光网络4.0再添新翼，“超融合”方案创新而来

锐捷发布“极简以太彩光4.0-超融合方案”，针对高职院校宿舍高密接入场景，实现“一套架构、超聚/超融双模式融合”设计。方案延续极简理念，核心侧部署超融合模块，弱电间采用无源融合设备，接入侧配备Wi-Fi 7光无线接入点，支持单设备接入11264间宿舍。具备四大创新：融合时分复用技术提升接入密度；统一以太网二层架构简化运维；有线无线一体化OAP提升部署灵活性；核心多场景融合部署适配不同业务需求。该方案不仅破解宿舍网络建设难题，更展现全光网络在医疗、普教等场景的适应能力。

极简以太彩光4.0 超融合方案宿舍高密接入
雷军：智能网联汽车不是零和博弈呼吁共同抵制网络水军、黑公关

2025世界智能网联汽车大会，今日于北京召开。小米集团董事长雷军出席并发表演讲。雷军表示，小米宣布造车四年半时间，产品上市也有一年半的时间，截止目前为止，我们交付了大概40万辆汽车。智能化方面，小米YU7的智能化配置非常高，而且我们下决心全系一个配置，全系标配700Tops算力、全系标配激光雷达、4D毫米波雷达。大幅度的提高了辅助驾驶系统的体验和安全性�

智能网联汽车小米造车雷军演讲
微算法科技（NASDAQ:MLGO）开发延迟和隐私感知卷积神经网络分布式推理，助力可靠人工智能系统技术

微算科技开发了延迟和隐私感知卷积神经网络分布式推理技术，通过创新队列机制和深度强化学习优化CNN推理过程，结合分布式计算与隐私保护机制，在降低边缘设备计算延迟的同时强化数据隐私。该技术将推理任务智能分配到不同节点，减少数据传输范围，实现高效推理与隐私安全的平衡，为智能医疗、交通等领域提供可靠解决方案。

人工智能深度学习隐私保护
离家时爷爷哽咽叮嘱不准对孙女暴力男子郑重承诺

近日，一段八旬爷爷追车叮嘱未来孙女婿的视频在网络上迅速走红，引发无数网友的感动与共鸣。事情发生在河南，一位女生带着男友跨越两千公里回家见家长，在即将返程之际，80岁高龄的爷爷拄着拐杖，蹒跚地追到车边，紧紧抓住车窗，以哽咽而坚定的声音反复告诫车内男子:“爷有个要求，就是不准许有暴力，千万不能对孙女动手!” 这感人至深的一幕被家人用手机记录�

爷爷追车孙女婿叮嘱家庭温情
荐狂奔20天，全网“追赶”Sora2

Sora2的发布，再次搅动了全球人工智能行业的神经。 9月30日，OpenAI正式推出其视频生成模型的重大升级版本——Sora2，以及基于该模型的社交应用Sora App。与前一代相比，Sora2在物理模拟的精确度、画面逼真度和生成可控性上显著提升，并实现了音频与人物对话的同步生成。这不仅让AI视频更“像真的”，也让视频生产“像写字”一样简单。短短五天，Sora App下载量便突破百万�

Sora2 人工智能视频生成模型
如何提高自己网站在 AI 回答里的曝光？GEO 优化全攻略

如今越来越多人不再使用传统搜索引擎，而是直接询问ChatGPT等AI工具。AI已成为新的信息分发入口，若你的网站内容能被AI直接引用、推荐或总结成回答，便能在生成式搜索时代抢占先机。这就是GEO（生成式引擎优化）的核心价值。文章提出优化内容结构、采用问答形式写作、增强权威性等实用技巧，并推荐使用AIBase工具实时监测内容在AI中的曝光情况。掌握GEO意味着让AI主动为你的内容“代言”。

GEO 生成式引擎优化 AI信息分发
声网与Oopz达成战略合作共同打造游戏语音场景AI降噪极致体验

游戏语音头部平台Oopz与声网达成战略合作，聚焦游戏开黑场景中的噪音问题。双方将结合AI降噪技术，针对复杂多变噪音环境，解决降噪不彻底、过度降噪等痛点，提升玩家沉浸式开黑体验。未来合作将覆盖连麦降噪、环境音消除等方向，优化主播端功能，共同打造更稳定流畅的语音解决方案。

游戏语音 AI降噪战略合作
守护用户数据安全，OPPO 携火山引擎发布《移动 Agent 安全技术白皮书》

在OPPO开发者大会上，OPPO联合火山引擎等机构发布《移动Agent安全技术白皮书》，宣布打造隐私计算云系统，通过端云协同架构构建用户数据全生命周期的“安全长城”。该系统结合火山引擎AI机密计算方案，实现端到端加密，确保数据“可用不可见”，任何人与系统均无法获取用户数据。双方将持续深化合作，致力于AI时代的数据安全治理，让用户享受AI便利的同时更安全放心。

OPPO 移动Agent安全技术白皮书私密计算云
OPPO Find X9系列卖爆了，这下全网都在找追光红？

在国产高端手机市场竞争白热化的当下，用户留存率与新品市场热度已成为衡量品牌竞争力的核心指标。而在双十一狂欢这一关键节点下，OPPO Find X9系列市场反响强烈，俨然已成爆款。

高端手机用户留存率市场热度

今日大家都在搜的词：

热文

3 天
7天

AI日报：SD 3宣布开源；中文语音AIChatTTS官网上线；Veo支持单图生成视频；ElevenLabs推多样化AI音频模型

苹果前员工因名叫“三星”走红网络：最终他选择改名

锐捷极简以太彩光网络4.0再添新翼，“超融合”方案创新而来

雷军：智能网联汽车不是零和博弈呼吁共同抵制网络水军、黑公关

微算法科技（NASDAQ:MLGO）开发延迟和隐私感知卷积神经网络分布式推理，助力可靠人工智能系统技术

离家时爷爷哽咽叮嘱不准对孙女暴力男子郑重承诺

荐狂奔20天，全网“追赶”Sora2

如何提高自己网站在 AI 回答里的曝光？GEO 优化全攻略

声网与Oopz达成战略合作共同打造游戏语音场景AI降噪极致体验

守护用户数据安全，OPPO 携火山引擎发布《移动 Agent 安全技术白皮书》

OPPO Find X9系列卖爆了，这下全网都在找追光红？

今日大家都在搜的词：

热文

红米REDMI K90全方位提升雷军：是不是越来越有旗舰气质

华为MatePad Mini典藏版今日开售：售价5999元起

一加15今晚发布定位全能水桶机

五大升级！红米REDMI K90标准版采用6.59英寸黄金中尺寸

华为nova Flip S小折叠开售：首发3388元起

兰博基尼联名！REDMI K90 Pro Max冠军版官宣

微信三大更新放出上热搜涉及群聊消息处理、消息撤回等

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个

红米REDMI K90标准版亮相：质感、工艺脱胎换骨

雷军回应K90定价：最近内存涨价太多希望大家理解这份诚意

REDMI K90标准版12+512GB降价300元小米回应：可退差价

苹果首款2nm手机芯片上热搜 A20由iPhone 18系列首发

华为鸿蒙HarmonyOS 6公测版开启推送

站长商机