首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:百度发布“绘想”平台与MuseSteamer;阿里音频驱动全身数字人模型OmniAvatar

2025-07-02 16:29 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、开源端到端语音大模型Step-Audio-AQAA:听懂音频直接生成自然语音

Step-Audio-AQAA 是一个开源的端到端语音大模型,能够直接从原始音频输入生成自然流畅的语音输出,显著提升了人机交互的体验。该模型由双码本音频标记器、骨干 LLM 和神经声码器三部分组成,能够高效处理语音中的复杂信息,为未来的智能语音应用奠定了坚实的基础。

image.png

【AiBase提要:】

🔊 Step-Audio-AQAA 可以直接从音频输入生成自然语音,提升人机交互体验。

📊 模型架构由双码本音频标记器、骨干 LLM 和神经声码器三个模块组成,能够高效捕捉语音中的复杂信息。

🎤 Step-Audio-AQAA 的推出标志着语音交互技术的重要进展,为未来智能语音应用提供了新思路。

详情链接:https://huggingface.co/stepfun-ai/Step-Audio-AQAA

2、百度发布“绘想”平台与MuseSteamer:AI生成视频,一张图即可搞定专业级大片!

百度发布“绘想”平台与MuseSteamer,通过生成式AI和多模态技术提供全面的视频生成解决方案,满足搜索、广告等场景需求。MuseSteamer具备强大的可控性和高性价比,用户只需上传图片即可生成专业级视频内容,极大简化了视频制作流程。

image.png

【AiBase提要:】

🎥 MuseSteamer支持音视频一体化生成,实现电影级制作效果。

🔄 支持连续10秒动态视频生成,提升创作效率。

🖼️ 用户仅需上传一张图片即可生成专业级视频内容。

详情链接:https://huixiang.baidu.com/

3、浙大与阿里联合发布OmniAvatar:音频驱动全身数字人模型震撼登场

浙大与阿里联合发布的OmniAvatar模型在音频驱动数字人技术上取得重大突破,能够生成自然流畅的全身数字人视频,尤其在歌唱场景中表现出色。该模型支持通过文本提示精细控制生成细节,并具备多场景应用潜力,为营销、教育及娱乐等领域带来创新可能。

【AiBase提要:】

🎧 音频驱动技术实现全身数字人视频生成

🎨 支持文本提示控制细节,提升灵活性

🌐 开源项目为商业场景提供广阔应用空间

4、百度搜索迎来十年来最大改版:AI智能框、百看、AI助手全面进化

百度搜索进行了十年来最大规模的改版,引入了智能框、百看和AI助手等创新功能,显著提升了用户的搜索体验和创作能力。

【AiBase提要:】

🧠 智能框支持千字输入,增强多模态交互能力。

🎥 百看功能升级,支持混合内容输出和智能体服务。

📽️ AI助手新增视频通话功能,提升创作与搜索能力。

5、xAI控制台新增Grok4及Grok4Code引用,标志着下一代AI模型即将发布

xAI在开发者控制台中新增了对Grok4及Grok4Code的引用,预示着下一代人工智能模型的发布即将来临。Grok4被描述为‘全能型AI的巅峰之作’,而Grok4Code则专注于编程优化。这两款模型的引用表明其公开发布已进入最后准备阶段。

image.png

【AiBase提要:】

🧠 Grok4作为xAI的旗舰模型,专注于自然语言处理、数学推理和综合推理能力的提升。

💻 Grok4Code专为编程优化,计划与代码编辑器无缝整合,提高开发效率。

🌐 xAI通过API提供Grok4访问权限,未来将扩展至多模态能力,降低开发者整合门槛。

6、Gemini Live重磅升级!无缝连接Google应用,智能生活触手可及

Gemini Live的升级通过与Google生态系统的深度整合,提升了用户的智能交互体验,同时兼顾了隐私保护,展现了其在智能助手领域的潜力。

【AiBase提要:】

📱Gemini Live将与Google Maps、Calendar等应用深度整合,提升跨应用操作效率。

🧠支持多模态交互,如扫描信息自动生成任务或日程,增强实用性。

🔒Google注重隐私保护,用户可自主管理权限以确保数据安全。

7.武汉首发全国首辆 AI 外卖配送车,配送效率大幅提升

武汉推出全国首辆搭载 AI 技术的外卖配送车 —— 智音车,配送效率提升显著,标志外卖行业的技术革新。

【AiBase 提要:】

🚚 智音车在武汉首发,配备北斗双频芯片,提升外卖配送效率。

📈 外卖小哥配送效率提升30%,日均多赚80元。

🛰 定位精度高达1米,智音车技术前景广阔。

8、Anthropic年化收入已达40亿美元,较年初增长近4倍、与 Cursor 竞争加剧

文章指出,AI独角兽Anthropic年化收入已达40亿美元,较年初增长近四倍,同时其竞争对手Cursor也在积极扩展业务,双方竞争加剧。Cursor依赖Anthropic的技术,并通过引入高管和创新提升竞争力。人工智能技术的快速发展推动了编程工具的需求增长,各公司都在争夺市场份额。

【AiBase提要:】

🤖 Anthropic年化收入达到40亿美元,较年初增长近四倍。

🔄 Cursor通过引入Anthropic的高管增强市场竞争力。

📈 人工智能技术快速发展,编程工具需求持续增加。

举报

  • 相关推荐
  • 下一个爆款在哪儿?2025英特尔人工智能创新应用大赛获奖名单揭晓

    8月16日,2025英特尔人工智能创新应用大赛总决赛在深圳落幕。40支优秀团队从2817支队伍中脱颖而出,围绕工业、教育、心理健康、游戏等领域展开对决。大赛展示了AI从云端走向边缘的趋势,依托酷睿Ultra处理器和低代码开发工具,推动AI应用本地化落地。获奖作品包括动力电池机器人协作拆卸系统和AI生成PPT服务,体现AI与产业需求的深度融合。英特尔与联想、惠普等合作伙伴共同为开发者提供全栈支持,加速AI技术普及和商业化进程。

  • 海尔冰箱唯一获批“制冷家电人工智能技术山东省工程研究中心”

    海尔冰箱在人工智能领域取得新突破,主导建设的"制冷家电人工智能技术山东省工程研究中心"成为2025年山东省工程研究中心认定名单中唯一入选的冰箱品牌。该中心聚焦人工智能、物联网、大数据等技术方向,开发了全空间智慧保鲜舱冰箱等140多项行业首创产品,近三年获授权发明专利803件。海尔冰箱还推出行业首款接入DeepSeek的AI全空间保鲜冰箱,具备方言识别、降噪技术等功能,显著提升用户体验。市场数据显示,2023年1-7月海尔冰箱以47%市场份额稳居行业第一。通过AI技术赋能,海尔冰箱正引领行业向精准、智能保鲜时代跨越。

  • ISC.AI 2025 人工智能安全治理与创新实践论坛圆满召开

    ISC.AI2025人工智能安全论坛在北京召开,聚焦AI安全治理与创新实践。论坛汇集顶尖专家,探讨大模型安全评估与防护、智能体安全、AI治理等前沿议题。360集团张向征指出,随着Agent技术爆发式应用,AI安全已成为产业核心焦点。专家们强调需构建AI安全防护体系,应对大模型直接访问核心系统带来的全新挑战。中国电子院彭健提出企业合规建设需关注九大要素,清华大学苏航揭示智能体安全风险远超传统AI。华为云范建军倡导端到端大模型安全防护,中国信通院杨哲超呼吁构建协同治理框架。论坛为构建安全、普惠、负责任的人工智能未来贡献智慧。

  • 重磅!标贝科技推出「十万音色·自然语音数据集」 重构AI语音训练基础设施

    标贝科技发布"十万音色·自然语音数据集",覆盖中英双语,包含10万种音色样本(中文5万、英文5万),基于近百万小时原始数据经智能生产线精细打磨。该数据集在规模、真实性和准确性三大核心指标实现突破,支持多情感表达和跨场景应用,涵盖基础情绪到特定风格,话题涉及多个领域。通过音频质量筛选、文本转写校正、说话人分离等技术,从海量数据中甄选出高质量样本,为语音识别、合成等AI模型训练提供坚实基础,助力实现更自然、真实的语音交互体验。

  • 大模型技术赋能声音创作:逗哥配音引领AI语音合成新浪潮‌

    逗哥配音作为国内领先的AI配音平台,凭借自主研发的语音合成大模型技术,已服务超千万创作者,累计生成音频量突破270亿次。其核心技术突破包括:1)支持40种语言,语音质量MOS分提升0.25,拟人度超83%;2)首创"AI分角功能",将多角色配音效率提升90%以上;3)建成覆盖近千款发音人的全球声库,包含方言、外语及影视角色音;4)创新"真人声纹+AI增强"模式,

  • 华为老机型将陆续升级鸿蒙5.0:升级后更流畅

    华为常务董事、终端BG董事长余承东与主持人陈伟鸿就鸿蒙操作系统的发展进行对话。 对于用户提出的鸿蒙应用适配问题,余承东表示,App刚出来可能会有这些问题,迭代之后都得到了解决,很多功能陆陆续续都有了,比如微信共享位置很快就会上线。 他还表示,华为老手机也做了升级计划,华为几个亿的存量用户会陆陆续续升级到鸿蒙5.0,升级之后会更流畅。

  • Razer(雷蛇)在新加坡设立AI CENTER OF EXCELLENCE,加速人工智能投资布局

    雷蛇宣布在新加坡设立全球AI卓越中心,并计划在欧洲和美国建立类似机构,推动游戏与开发者工具领域的创新。新加坡中心将招聘150名AI工程师,专注于下一代AI游戏技术研发。雷蛇还推出AI工具套件,包括Game Co-AI和QA Co-AI,帮助开发者提升游戏质量和开发效率。该战略布局正值全球游戏市场快速增长期,预计2033年AI游戏市场规模将达280亿美元。新加坡数字产业发展局表示,此举将巩固该国作为区域AI创新中心的地位。

  • AI日报:阿里新发布Qwen3-4B模型;小红书发布开源模型dots.vlm1;MiniMax Speech 2.5语音生成模型上线

    AI日报栏目聚焦人工智能领域最新动态:1)阿里发布Qwen3-4B轻量级模型,手机端可运行;2)小红书开源多模态大模型dots.vlm1,在图表推理方面表现突出;3)MiniMax推出语音生成模型Speech2.5,多语种表现提升;4)Midjourney推出HD视频模式,提升专业影像质量;5)Cursor1.4版本增强异步任务处理能力;6)谷歌否认AI搜索影响网站流量,但数据显示用户行为改变;7)MiniCPM-V4.0开源发布,号称"手机上的GPT-4V";8)AMD与高通宣布支持OpenAI的gpt-oss系列模型;9)腾讯开源WeKnora文档智能解析工具;11)疑似GPT-5信息在GitHub泄露;12)FlowSpeech实现书面语转口语的TTS技术突破。

  • 润和软件携丰富金融行业实践成果亮相2025世界人工智能大会

    润和软件在2025世界人工智能大会(WAIC2025)上展示了JettoAI+智能助手平台等系列智慧金融解决方案,包括测试智能助手、消保助手、研报助手等创新产品。作为金融科技领域领先企业,润和软件深耕AI与金融业务融合,已服务6大国有银行、12家股份制银行及超280家中小金融机构。报告显示中国金融科技市场预计将以13.3%复合增长率高速增长,2028年科技投入或突破6500亿元。润和软件�

  • ChatGPT语音模式增添新功能:可调语速 支持0.5到2.0倍速

    OpenAI为其ChatGPT网页应用的语音模式推出新功能,加入语音速度”调节与自定义指令前缀”,同时配合此前升级的模型选择器,进一步提升用户体验。 新增的语音速度”选项让用户可通过滑块自由调整ChatGPT的语速,范围从0.5倍速到2.0倍速,不过该功能目前仍处于隐藏状态,尚未正式开放。 自定义指令前缀”功能则允许语音模式记住用户的特定要求,避免重复输入。系统明确�

今日大家都在搜的词: