AI日报：百度发布“绘想”平台与MuseSteamer；阿里音频驱动全身数字人模型OmniAvatar

2025-07-02 16:29 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、开源端到端语音大模型Step-Audio-AQAA:听懂音频直接生成自然语音

Step-Audio-AQAA 是一个开源的端到端语音大模型，能够直接从原始音频输入生成自然流畅的语音输出，显著提升了人机交互的体验。该模型由双码本音频标记器、骨干 LLM 和神经声码器三部分组成，能够高效处理语音中的复杂信息，为未来的智能语音应用奠定了坚实的基础。

【AiBase提要:】
🔊 Step-Audio-AQAA 可以直接从音频输入生成自然语音，提升人机交互体验。
📊 模型架构由双码本音频标记器、骨干 LLM 和神经声码器三个模块组成，能够高效捕捉语音中的复杂信息。
🎤 Step-Audio-AQAA 的推出标志着语音交互技术的重要进展，为未来智能语音应用提供了新思路。
详情链接:https://huggingface.co/stepfun-ai/Step-Audio-AQAA

2、百度发布“绘想”平台与MuseSteamer:AI生成视频，一张图即可搞定专业级大片!

百度发布“绘想”平台与MuseSteamer，通过生成式AI和多模态技术提供全面的视频生成解决方案，满足搜索、广告等场景需求。MuseSteamer具备强大的可控性和高性价比，用户只需上传图片即可生成专业级视频内容，极大简化了视频制作流程。

【AiBase提要:】
🎥 MuseSteamer支持音视频一体化生成，实现电影级制作效果。
🔄 支持连续10秒动态视频生成，提升创作效率。
🖼️ 用户仅需上传一张图片即可生成专业级视频内容。
详情链接:https://huixiang.baidu.com/

3、浙大与阿里联合发布OmniAvatar:音频驱动全身数字人模型震撼登场

浙大与阿里联合发布的OmniAvatar模型在音频驱动数字人技术上取得重大突破，能够生成自然流畅的全身数字人视频，尤其在歌唱场景中表现出色。该模型支持通过文本提示精细控制生成细节，并具备多场景应用潜力，为营销、教育及娱乐等领域带来创新可能。

【AiBase提要:】
🎧 音频驱动技术实现全身数字人视频生成
🎨 支持文本提示控制细节，提升灵活性
🌐 开源项目为商业场景提供广阔应用空间

4、百度搜索迎来十年来最大改版:AI智能框、百看、AI助手全面进化

百度搜索进行了十年来最大规模的改版，引入了智能框、百看和AI助手等创新功能，显著提升了用户的搜索体验和创作能力。

【AiBase提要:】
🧠 智能框支持千字输入，增强多模态交互能力。
🎥 百看功能升级，支持混合内容输出和智能体服务。
📽️ AI助手新增视频通话功能，提升创作与搜索能力。

5、xAI控制台新增Grok4及Grok4Code引用，标志着下一代AI模型即将发布

xAI在开发者控制台中新增了对Grok4及Grok4Code的引用，预示着下一代人工智能模型的发布即将来临。Grok4被描述为‘全能型AI的巅峰之作’，而Grok4Code则专注于编程优化。这两款模型的引用表明其公开发布已进入最后准备阶段。

【AiBase提要:】
🧠 Grok4作为xAI的旗舰模型，专注于自然语言处理、数学推理和综合推理能力的提升。
💻 Grok4Code专为编程优化，计划与代码编辑器无缝整合，提高开发效率。
🌐 xAI通过API提供Grok4访问权限，未来将扩展至多模态能力，降低开发者整合门槛。

6、Gemini Live重磅升级!无缝连接Google应用，智能生活触手可及

Gemini Live的升级通过与Google生态系统的深度整合，提升了用户的智能交互体验，同时兼顾了隐私保护，展现了其在智能助手领域的潜力。

【AiBase提要:】
📱Gemini Live将与Google Maps、Calendar等应用深度整合，提升跨应用操作效率。
🧠支持多模态交互，如扫描信息自动生成任务或日程，增强实用性。
🔒Google注重隐私保护，用户可自主管理权限以确保数据安全。

7.武汉首发全国首辆 AI 外卖配送车，配送效率大幅提升

武汉推出全国首辆搭载 AI 技术的外卖配送车 —— 智音车，配送效率提升显著，标志外卖行业的技术革新。

【AiBase 提要:】
🚚 智音车在武汉首发，配备北斗双频芯片，提升外卖配送效率。
📈 外卖小哥配送效率提升30%，日均多赚80元。
🛰 定位精度高达1米，智音车技术前景广阔。

8、Anthropic年化收入已达40亿美元，较年初增长近4倍、与 Cursor 竞争加剧

文章指出，AI独角兽Anthropic年化收入已达40亿美元，较年初增长近四倍，同时其竞争对手Cursor也在积极扩展业务，双方竞争加剧。Cursor依赖Anthropic的技术，并通过引入高管和创新提升竞争力。人工智能技术的快速发展推动了编程工具的需求增长，各公司都在争夺市场份额。

【AiBase提要:】
🤖 Anthropic年化收入达到40亿美元，较年初增长近四倍。
🔄 Cursor通过引入Anthropic的高管增强市场竞争力。
📈 人工智能技术快速发展，编程工具需求持续增加。

（举报）

相关推荐

关键词：

下一个爆款在哪儿？2025英特尔人工智能创新应用大赛获奖名单揭晓

8月16日，2025英特尔人工智能创新应用大赛总决赛在深圳落幕。40支优秀团队从2817支队伍中脱颖而出，围绕工业、教育、心理健康、游戏等领域展开对决。大赛展示了AI从云端走向边缘的趋势，依托酷睿Ultra处理器和低代码开发工具，推动AI应用本地化落地。获奖作品包括动力电池机器人协作拆卸系统和AI生成PPT服务，体现AI与产业需求的深度融合。英特尔与联想、惠普等合作伙伴共同为开发者提供全栈支持，加速AI技术普及和商业化进程。

人工智能创新应用大赛
海尔冰箱唯一获批“制冷家电人工智能技术山东省工程研究中心”

海尔冰箱在人工智能领域取得新突破，主导建设的"制冷家电人工智能技术山东省工程研究中心"成为2025年山东省工程研究中心认定名单中唯一入选的冰箱品牌。该中心聚焦人工智能、物联网、大数据等技术方向，开发了全空间智慧保鲜舱冰箱等140多项行业首创产品，近三年获授权发明专利803件。海尔冰箱还推出行业首款接入DeepSeek的AI全空间保鲜冰箱，具备方言识别、降噪技术等功能，显著提升用户体验。市场数据显示，2023年1-7月海尔冰箱以47%市场份额稳居行业第一。通过AI技术赋能，海尔冰箱正引领行业向精准、智能保鲜时代跨越。

人工智能海尔冰箱科技创新
ISC.AI 2025 人工智能安全治理与创新实践论坛圆满召开

ISC.AI2025人工智能安全论坛在北京召开，聚焦AI安全治理与创新实践。论坛汇集顶尖专家，探讨大模型安全评估与防护、智能体安全、AI治理等前沿议题。360集团张向征指出，随着Agent技术爆发式应用，AI安全已成为产业核心焦点。专家们强调需构建AI安全防护体系，应对大模型直接访问核心系统带来的全新挑战。中国电子院彭健提出企业合规建设需关注九大要素，清华大学苏航揭示智能体安全风险远超传统AI。华为云范建军倡导端到端大模型安全防护，中国信通院杨哲超呼吁构建协同治理框架。论坛为构建安全、普惠、负责任的人工智能未来贡献智慧。

人工智能安全大模型安全 AI治理
重磅！标贝科技推出「十万音色·自然语音数据集」重构AI语音训练基础设施

标贝科技发布"十万音色·自然语音数据集"，覆盖中英双语，包含10万种音色样本（中文5万、英文5万），基于近百万小时原始数据经智能生产线精细打磨。该数据集在规模、真实性和准确性三大核心指标实现突破，支持多情感表达和跨场景应用，涵盖基础情绪到特定风格，话题涉及多个领域。通过音频质量筛选、文本转写校正、说话人分离等技术，从海量数据中甄选出高质量样本，为语音识别、合成等AI模型训练提供坚实基础，助力实现更自然、真实的语音交互体验。

AI语音自然语音数据集情感识别
大模型技术赋能声音创作：逗哥配音引领AI语音合成新浪潮‌

逗哥配音作为国内领先的AI配音平台，凭借自主研发的语音合成大模型技术，已服务超千万创作者，累计生成音频量突破270亿次。其核心技术突破包括：1）支持40种语言，语音质量MOS分提升0.25，拟人度超83%；2）首创"AI分角功能"，将多角色配音效率提升90%以上；3）建成覆盖近千款发音人的全球声库，包含方言、外语及影视角色音；4）创新"真人声纹+AI增强"模式，

人工智能大模型技术 AI配音
华为老机型将陆续升级鸿蒙5.0：升级后更流畅

华为常务董事、终端BG董事长余承东与主持人陈伟鸿就鸿蒙操作系统的发展进行对话。对于用户提出的鸿蒙应用适配问题，余承东表示，App刚出来可能会有这些问题，迭代之后都得到了解决，很多功能陆陆续续都有了，比如微信共享位置很快就会上线。他还表示，华为老手机也做了升级计划，华为几个亿的存量用户会陆陆续续升级到鸿蒙5.0，升级之后会更流畅。

鸿蒙操作系统余承东华为Pura
Razer（雷蛇）在新加坡设立AI CENTER OF EXCELLENCE，加速人工智能投资布局

雷蛇宣布在新加坡设立全球AI卓越中心，并计划在欧洲和美国建立类似机构，推动游戏与开发者工具领域的创新。新加坡中心将招聘150名AI工程师，专注于下一代AI游戏技术研发。雷蛇还推出AI工具套件，包括Game Co-AI和QA Co-AI，帮助开发者提升游戏质量和开发效率。该战略布局正值全球游戏市场快速增长期，预计2033年AI游戏市场规模将达280亿美元。新加坡数字产业发展局表示，此举将巩固该国作为区域AI创新中心的地位。

雷蛇人工智能游戏创新
荐AI日报：阿里新发布Qwen3-4B模型；小红书发布开源模型dots.vlm1；MiniMax Speech 2.5语音生成模型上线

AI日报栏目聚焦人工智能领域最新动态：1)阿里发布Qwen3-4B轻量级模型，手机端可运行；2)小红书开源多模态大模型dots.vlm1，在图表推理方面表现突出；3)MiniMax推出语音生成模型Speech2.5，多语种表现提升；4)Midjourney推出HD视频模式，提升专业影像质量；5)Cursor1.4版本增强异步任务处理能力；6)谷歌否认AI搜索影响网站流量，但数据显示用户行为改变；7)MiniCPM-V4.0开源发布，号称"手机上的GPT-4V"；8)AMD与高通宣布支持OpenAI的gpt-oss系列模型；9)腾讯开源WeKnora文档智能解析工具；11)疑似GPT-5信息在GitHub泄露；12)FlowSpeech实现书面语转口语的TTS技术突破。

AI模型移动端AI 阿里通义千问
润和软件携丰富金融行业实践成果亮相2025世界人工智能大会

润和软件在2025世界人工智能大会(WAIC2025)上展示了JettoAI+智能助手平台等系列智慧金融解决方案，包括测试智能助手、消保助手、研报助手等创新产品。作为金融科技领域领先企业，润和软件深耕AI与金融业务融合，已服务6大国有银行、12家股份制银行及超280家中小金融机构。报告显示中国金融科技市场预计将以13.3%复合增长率高速增长，2028年科技投入或突破6500亿元。润和软件�

金融科技人工智能智慧金融
ChatGPT语音模式增添新功能：可调语速支持0.5到2.0倍速

OpenAI为其ChatGPT网页应用的语音模式推出新功能，加入语音速度”调节与自定义指令前缀”，同时配合此前升级的模型选择器，进一步提升用户体验。新增的语音速度”选项让用户可通过滑块自由调整ChatGPT的语速，范围从0.5倍速到2.0倍速，不过该功能目前仍处于隐藏状态，尚未正式开放。自定义指令前缀”功能则允许语音模式记住用户的特定要求，避免重复输入。系统明确�

ChatGPT 语音模式自定义指令

今日大家都在搜的词：

热文

3 天
7天

AI日报：百度发布“绘想”平台与MuseSteamer；阿里音频驱动全身数字人模型OmniAvatar

下一个爆款在哪儿？2025英特尔人工智能创新应用大赛获奖名单揭晓

海尔冰箱唯一获批“制冷家电人工智能技术山东省工程研究中心”

ISC.AI 2025 人工智能安全治理与创新实践论坛圆满召开

重磅！标贝科技推出「十万音色·自然语音数据集」重构AI语音训练基础设施

大模型技术赋能声音创作：逗哥配音引领AI语音合成新浪潮‌

华为老机型将陆续升级鸿蒙5.0：升级后更流畅

Razer（雷蛇）在新加坡设立AI CENTER OF EXCELLENCE，加速人工智能投资布局

荐AI日报：阿里新发布Qwen3-4B模型；小红书发布开源模型dots.vlm1；MiniMax Speech 2.5语音生成模型上线

润和软件携丰富金融行业实践成果亮相2025世界人工智能大会

ChatGPT语音模式增添新功能：可调语速支持0.5到2.0倍速

今日大家都在搜的词：

热文

华为首款鸿蒙MateTV发布支持灵犀触控交互等功能

60岁李国庆谈再婚：妻子是“白月光” 年轻时2次爱而不得

罗永浩官宣明日将公布TBT项目号称九年磨一面

《黑神话:钟馗》先导预告公布游戏科学宣布《黑神话:钟馗》官网

REDMI Note 15 Pro+首搭自研澎湃T1S芯片

AI日报：阿里开源Qwen-Image-Edit；淘宝“AI万能搜”功能灰度测

AI日报：DeepSeek V3.1正式发布；企业微信5.0推出全新AI能力；

黑神话官号更名系列游戏将开启宏大篇章

京东外卖全职骑手破15万人五险一金每人每月平均缴纳约2000元

REDMI Note 15 Pro+宣布搭载7000mAh金沙江电池：支持90W快充

华为首款鸿蒙MateTV发布支持灵犀触控交互等功能

60岁李国庆谈再婚：妻子是“白月光” 年轻时2次爱而不得

罗永浩官宣明日将公布TBT项目号称九年磨一面

《黑神话:钟馗》先导预告公布游戏科学宣布《黑神话:钟馗》官网

REDMI Note 15系列定档将于8月21日发布

AI日报：腾讯推音效生成工具AudioGenie；阿里推智能体WebWatch

REDMI Note 15 Pro+首搭自研澎湃T1S芯片

AI日报：阿里开源Qwen-Image-Edit；淘宝“AI万能搜”功能灰度测

AI日报：DeepSeek V3.1正式发布；企业微信5.0推出全新AI能力；

苹果正式入驻小红书 iPhone 17系列下月发布

站长商机