首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:百度发布“绘想”平台与MuseSteamer;阿里音频驱动全身数字人模型OmniAvatar

2025-07-02 16:29 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、开源端到端语音大模型Step-Audio-AQAA:听懂音频直接生成自然语音

Step-Audio-AQAA 是一个开源的端到端语音大模型,能够直接从原始音频输入生成自然流畅的语音输出,显著提升了人机交互的体验。该模型由双码本音频标记器、骨干 LLM 和神经声码器三部分组成,能够高效处理语音中的复杂信息,为未来的智能语音应用奠定了坚实的基础。

image.png

【AiBase提要:】

🔊 Step-Audio-AQAA 可以直接从音频输入生成自然语音,提升人机交互体验。

📊 模型架构由双码本音频标记器、骨干 LLM 和神经声码器三个模块组成,能够高效捕捉语音中的复杂信息。

🎤 Step-Audio-AQAA 的推出标志着语音交互技术的重要进展,为未来智能语音应用提供了新思路。

详情链接:https://huggingface.co/stepfun-ai/Step-Audio-AQAA

2、百度发布“绘想”平台与MuseSteamer:AI生成视频,一张图即可搞定专业级大片!

百度发布“绘想”平台与MuseSteamer,通过生成式AI和多模态技术提供全面的视频生成解决方案,满足搜索、广告等场景需求。MuseSteamer具备强大的可控性和高性价比,用户只需上传图片即可生成专业级视频内容,极大简化了视频制作流程。

image.png

【AiBase提要:】

🎥 MuseSteamer支持音视频一体化生成,实现电影级制作效果。

🔄 支持连续10秒动态视频生成,提升创作效率。

🖼️ 用户仅需上传一张图片即可生成专业级视频内容。

详情链接:https://huixiang.baidu.com/

3、浙大与阿里联合发布OmniAvatar:音频驱动全身数字人模型震撼登场

浙大与阿里联合发布的OmniAvatar模型在音频驱动数字人技术上取得重大突破,能够生成自然流畅的全身数字人视频,尤其在歌唱场景中表现出色。该模型支持通过文本提示精细控制生成细节,并具备多场景应用潜力,为营销、教育及娱乐等领域带来创新可能。

【AiBase提要:】

🎧 音频驱动技术实现全身数字人视频生成

🎨 支持文本提示控制细节,提升灵活性

🌐 开源项目为商业场景提供广阔应用空间

4、百度搜索迎来十年来最大改版:AI智能框、百看、AI助手全面进化

百度搜索进行了十年来最大规模的改版,引入了智能框、百看和AI助手等创新功能,显著提升了用户的搜索体验和创作能力。

【AiBase提要:】

🧠 智能框支持千字输入,增强多模态交互能力。

🎥 百看功能升级,支持混合内容输出和智能体服务。

📽️ AI助手新增视频通话功能,提升创作与搜索能力。

5、xAI控制台新增Grok4及Grok4Code引用,标志着下一代AI模型即将发布

xAI在开发者控制台中新增了对Grok4及Grok4Code的引用,预示着下一代人工智能模型的发布即将来临。Grok4被描述为‘全能型AI的巅峰之作’,而Grok4Code则专注于编程优化。这两款模型的引用表明其公开发布已进入最后准备阶段。

image.png

【AiBase提要:】

🧠 Grok4作为xAI的旗舰模型,专注于自然语言处理、数学推理和综合推理能力的提升。

💻 Grok4Code专为编程优化,计划与代码编辑器无缝整合,提高开发效率。

🌐 xAI通过API提供Grok4访问权限,未来将扩展至多模态能力,降低开发者整合门槛。

6、Gemini Live重磅升级!无缝连接Google应用,智能生活触手可及

Gemini Live的升级通过与Google生态系统的深度整合,提升了用户的智能交互体验,同时兼顾了隐私保护,展现了其在智能助手领域的潜力。

【AiBase提要:】

📱Gemini Live将与Google Maps、Calendar等应用深度整合,提升跨应用操作效率。

🧠支持多模态交互,如扫描信息自动生成任务或日程,增强实用性。

🔒Google注重隐私保护,用户可自主管理权限以确保数据安全。

7.武汉首发全国首辆 AI 外卖配送车,配送效率大幅提升

武汉推出全国首辆搭载 AI 技术的外卖配送车 —— 智音车,配送效率提升显著,标志外卖行业的技术革新。

【AiBase 提要:】

🚚 智音车在武汉首发,配备北斗双频芯片,提升外卖配送效率。

📈 外卖小哥配送效率提升30%,日均多赚80元。

🛰 定位精度高达1米,智音车技术前景广阔。

8、Anthropic年化收入已达40亿美元,较年初增长近4倍、与 Cursor 竞争加剧

文章指出,AI独角兽Anthropic年化收入已达40亿美元,较年初增长近四倍,同时其竞争对手Cursor也在积极扩展业务,双方竞争加剧。Cursor依赖Anthropic的技术,并通过引入高管和创新提升竞争力。人工智能技术的快速发展推动了编程工具的需求增长,各公司都在争夺市场份额。

【AiBase提要:】

🤖 Anthropic年化收入达到40亿美元,较年初增长近四倍。

🔄 Cursor通过引入Anthropic的高管增强市场竞争力。

📈 人工智能技术快速发展,编程工具需求持续增加。

举报

  • 相关推荐
  • OpenAI成立OpenAI部署公司:帮助企业构建人工智能系统

    OpenAI正式成立OpenAI 部署公司”,在帮助企业构建人工智能系统。 同时,OpenAI已同意收购Tomoro一家专注于将AI转化为运营优势的应用 AI 咨询与工程公司。 新成立的部署公司由OpenAI控股,无论客户是与OpenAI、OpenAI部署公司,还是与两者同时合作,都将获得统一的服务体验。

  • 北京国际人力获评世界品牌莫干山大会“人工智能+”生态创新实践范本

    5月9日,第十个中国品牌日之际,2026世界品牌莫干山大会“搜索·点赞·传播品牌好故事论坛”在浙江德清举办,发布“人工智能+”生态创新实践范本。北京国际人力旗下万维招聘AI智能招聘平台获评“人工智能+”创新产品。论坛聚焦品牌强国建设,北京国际人力以47年行业积淀,推出全流程智能招聘平台,针对传统招聘痛点,运用大模型等技术构建PC端、微信小程序、线下求职一体机三位一体服务矩阵,赋能企业招聘管理与求职者职业成长,彰显国企担当,助力“中国服务”品牌高质量发展。

  • 改写语音交互行规,豆包大模型更稳了

    豆包大模型,又上新了。 2026年4月9日,原生全双工语音大模型Seeduplex正式发布,相比上一代半双工豆包端到端语音模型,新模型基于“边听边说”的全新框架设计,交互体验的自然感、顺畅度大幅提升,目前已在豆包App全量上线。 这意味着,前沿的全双工语音技术,第一次实现商业规模化落地。 而依托全双工语音技术,豆包的语音交互不再是机械式的一问一答,而是收放�

  • 得一微担任世界人工智能眼镜联盟(WAEA)董事会员,共推AI眼镜存力新前景

    近日,“2026AI眼镜产业生态大会”在深圳举行,汇聚全球顶尖企业与专家,探讨产业创新趋势。得壹微电子(YEESTOR)作为国内领先AI存力芯片设计企业受邀出席,被授予“世界人工智能眼镜联盟(WAEA)董事会成员单位”。大会指出,AI眼镜正从极客玩具迈向大众消费品,预计2026年全球出货量将突破2368万台。得壹微电子深耕存力主控芯片,为AI眼镜提供从端到云的全栈存力支持,推动端侧AI与智能穿戴生态规模化商用。

  • 微信又有新功能 网友:好用 长截图、发语音等上线

    长期以来,电脑端微信在操作便捷性上一直被用户吐槽,不少功能不得不依赖手机端完成。不过这一局面正在改变,微信电脑版近日推送了4.1.9版本更新,一口气上线了多项贴近日常使用的实用功能。 此次更新中最受关注的当属滚动长截图功能。过去在电脑上想要截取一篇长文章或一段完整的聊天记录,往往需要分多次截屏,再手动拼接,过程繁琐且容易出错。新版本上线后�

  • 微信大改动!未读语音由红变灰被用户疯狂吐槽 腾讯回应

    近期不少iOS用户更新微信后发现,未读语音消息的提示色由醒目的红色变为灰色,该改动引发了大量用户吐槽与热议。 灰色未读语音与已读消息视觉高度相近,用户稍不留意就会忽略未读内容,不少人反馈因此错过工作通知、亲友重要信息,长期形成的红色提醒习惯被打破,使用体验明显下降。 腾讯客服对此回应称:未读语音变灰是iOS端未读模式”功能的灰度测试,属于阶�

  • 千问电脑版上线AI语音输入法功能

    千问电脑版正式上线AI语音输入法,全面开放免费使用。用户只需按下快捷键(Windows右Alt键/Mac右Command键),即可在微博、QQ邮箱、PS等桌面应用中直接调用。该功能支持“边想边说、边说边改”,自动去除口语化表达如“嗯”“啊”,并进行纠错和格式化。此外,它还能结合上下文智能回复,支持创作、问答、翻译等指令,如自动生成邮件回复、制作PPT、整理表格或输出Word文档,大幅提升办公效率。

  • 微信PC版大更新:长截图、发语音、表情连发都来了

    微信电脑版4.1.9版本更新,新增滚动长截图功能,用户只需截图后选择滚动截图并滑动鼠标滚轮,即可完整保存长文章。同时支持直接发送语音,点击话筒图标或按Alt键即可说话,快捷键可自定义设置。表情输入也更便捷,选择后按方向键可快速复制发送,无需重复点选。这些实用功能贴近日常需求,更新后即可使用,让办公聊天更省事。

  • 微信未读语音消息变灰 腾讯客服回应: iOS 端逐步开放

    近日,多位网友在社交平台上发帖称,更新微信版本后,发现未读的语音消息显示由原本的红色变成了灰色,这一变化引发了不少网友的吐槽。有网友表示,因为颜色变化,自己会经常误以为语音消息已经读过了,从而错过了一些重要信息。

  • 人声接近真人!OpenAI一口气更新三款超强语音AI

    OpenAI正式宣布对其实时API接口进行重大升级,一次性推出三款全新高阶语音智能模型,全面强化AI在实时听觉、口语交互、翻译与转录方面的能力,并大幅降低企业开发智能语音应用的技术门槛。 本次更新的核心产品包括:GPT-Realtime-2、实时翻译模型以及实时转写模型。其中,GPT-Realtime-2搭载了GPT-5级别的推理能力,人声仿真度进一步提升。 相比前代产品,它能够更精准地理�

今日大家都在搜的词: