首页 > 业界 > 关键词  > AI年货最新资讯  > 正文

帮村里接通AI就靠它!34个地域超拟人AI智能体上线,背后技术也被我们扒出来了

2025-01-25 09:37 · 稿源:​量子位公众号

声明:本文来自于微信公众号量子位,作者:西风,授权站长之家转载发布。

各位过年回乡的友友们,第一波“AI年货”就靠你带,帮助乡里村里接通AI的重任,就靠你了!

现在,当春节出门拜年被七大姑八大姨问:有没有男/女朋友啊?

不要犹豫,请直接搬救兵,给“它”打电话~

image.png

当被问“在外面干的怎么样啊”,就说特别好。不信?搬出朋友来讲两句:

image.png

不怕大家听不懂方言,这电话能随手开启实时字幕:

image.png

另外,当你的闺蜜说春节想“年味儿游”,赶紧亮出“它”来露一手,吃喝玩乐旅游规划,可是“它”的老本行。

image.png

蚌埠住了!这样的“它”总共有34个,分别来自34个不同的省级行政区,并且都说着一口流利的当地方言

过年把“它”带回家,这AI小味儿挠一下就上来了,方言加持“老乡见老乡”格外亲,没接触过AI的亲戚朋友谁看了不迷糊啊,这下过年聊天有得聊了。

咱就是说,像这种话题是时候换换了

所以怎么玩呢?

这个年,云游34省

这其实是百度文心智能体平台为大家准备的,34个省级行政区极具地域特色的超拟人AI智能体分身大礼包。现在百度APP搜索“春节智能体”或者“AI旅游”就能玩

众所周知,今年春节是申遗成功后的第一个春节。据携程发布的《2025春节旅游市场预测报告》,今年大家春节出游意愿空前高涨。小红书等平台随便一搜,就有各种“年味儿游”攻略,还有不少人发帖求推荐。

而百度发布的“34省智能体”主打的就是当大家的旅游搭子

无论是走南还是闯北,游东还是游西,都给你配备好了一条龙服务,只需简简单单提出你的需求,他就能分分钟规划好一整套旅游攻略,各种注意细节都帮你想好了。

甚至还能帮你查到景点门票购买方式,能直接点击跳转到购买页面的那种。

图片

不过这种图文对话并非重头戏,百度这次把智能体玩出了新高度——

点击输入框的电话按钮,就能直接和数字人智能体通话!

image.png

而且这34个“导游”无论形象还是口音都极具地域特色,不出门的人用它来“”,了解各地的文化风土人情也蛮好玩。

image.png

语音通话中不仅可以选择性打开字幕,而且点击屏幕就可以打断对方讲话。

当然,你也能如开头所展示的那样,用它开发更多花式玩法。

用其它方言和它对话也行,亲测它能听懂:

image.png

如果你觉得这些还不过瘾,甚至可以自己DIY一个。

图片

在百度文心智能体平台可以一键get同款,定制自己家乡方言的智能体或是自己感兴趣的垂类智能体。

图片

当然,AI学会方言这种中国公司才能实现的大模型技术,背后并不简单。

揭秘方言语音背后“杀手锏”

背后藏着百度语音技术团队的两大“杀手锏”:

语音大数据挖掘技术语音合成大模型技术,共同支撑起34省带有人物画像的方言音色快速定制。

语音大数据挖掘技术,是整个语音合成大模型的基础,它先利用强大的识别大模型,对海量的语音数据进行自动化处理,包括:

  • 切分:将长语音数据切割成短片段,方便后续处理。

  • 降噪:去除语音中的杂音,提升语音质量。

  • 识别:识别语音中的文字内容,为方言合成提供语义信息。

    ……

由此,为语音合成大模型提供了大规模、高质量的方言数据支持,确保了后续方言语音合成的准确性和自然度。

图片

此外,基于语音合成大模型的方言迁移合成技术还解决了之前合成系统存在的诸多难题——不同方言的合成模型难以通用,需要为每种方言单独开发前端,导致资源消耗大、研发周期长。

该技术巧妙地运用了大数据驱动将普通话与各种方言纳入统一建模框架之中,通过迁移学习实现了任意音色说任意方言的自然流畅转换。

也就是说,可以训练出一个能够合成多种方言语音的通用模型,大大降低了研发成本和周期。

领先技术加持,极大提高了产出效率,怪不得34个智能体齐发,说上线就上线速度这么快,不过百度的语音技术可不光是为了春节而准备。

百度语音在多领域大显身手

百度语音技术团队成立于2010年,到现在已有深厚的技术积累,其语音技术也早已落到了各行各业,遍地开花。

比如,在数字人直播场景,数字人声音合成的好坏极大依赖录音数据的质量,很多商家缺乏专业主播数据,导致定制的个性化虚拟人语音合成效果一般。

百度语音技术团队针对直播场景,搭建了专门的带货风格语音音库。

其中创新性地解决了个性化语音合成的多个痛点:

  • 突破传统录音棚限制,通过智能工牌设备自动采集真实直播数据。

  • 运用语音大模型迁移技术,精准提取优质主播韵律信息,迁移给用户音色。

  • 运用篇章段落合成技术,有效地解决了传统单句合成带来的状态不连续和随机切换问题,提升整场直播的合成自然度。

  • 基于文本韵律增强技术,有效利用篇章文本,进行整体的韵律、停顿、激情状态控制,提升整场直播的拟人度和自然度。

效果那也是杠杠的,据了解,定制音库的制作成本大幅降低,仅需几分钟数据就能达到超越真人的TTS水平。

图片

另外,在有声小说市场,百度直接搞了个全自动化生产平台,实现从画本到有声书的端到端自动生成。

包括融合了基于大语言模型的文本理解技术,实现了精准角色预测、人物画像构建、对白情感分析,搭建小说业务统一训练框架。

还有高表现力声学建模技术,支持多种情感和副语言(如大笑、冷哼等)的迁移与控制,能够生成符合语义和情感的类真人声音合成。

并且,新音色的生成过程中,用户再也不需要录制包含特定情感和副语言的数据,即可快速生成具备情感和副语言能力的角色对白库,显著降低了构建数据库的门槛。

图片

在车载场景下,百度还将视觉信息引入语音增强,对人脸唇动特征和语音信号统一建模,大幅提升复杂场景下的语音增强的效果,彻底改变了过去单一模态的交互体验。

所以从这次的春节创意互动,到各行业的专业级应用,百度的目标也很简单,重塑智能语音技术边界,为用户带来更自然、个性化的交互体验。

这也是影响我们每一个人未来工作和生活的核心趋势。

在大模型时代,一场语音革命已经在悄然进行。如果你或者身边的人,想要更早抓住技术能做什么、会怎么样,可以从百度这份春节大礼包试玩开始。

趁着春节,用AI的方式,帮助亲朋好友都AI起来~

举报

  • 相关推荐
  • AI智能体2小时击败人类,引爆贝叶斯推理革命!仅用10%数据训练秒杀大模型

    【新智元导读】就在刚刚,Verses团队研发的Genius智能体,在Pong中超越了人类顶尖玩家!且它仅仅训练2小时,用了1/10数据,就秒杀了其他顶级AI模型。Verses团队在AI领域投下了一枚重磅炸弹,他们自研的Genius智能体,创造了一个几乎不可能的奇迹——只用‍10%‍数据,训练2‍小时,就能打造出最强AI智能体!在经典游戏Pong中,Genius智能体多次达到完美的20分,一举超越了苦练数天�

  • OpenAI率先打样,今年AI圈的主角是智能体

    2023年AI圈的主角无疑是大模型,如火如荼的百模大战是让人印象深刻,2024年站在AI圈C位的显然是AI助手,Kimi、豆包、文小言、元宝等产品更是战成一团。那么2025年AI圈新的主角,则几乎一定是智能体。以OpenAI的首个智能体为标志,在2025年能帮你干活、从提升你生活质量的智能体,或许才是大家最希望看到的AI产品。

  • 刚刚,OpenAI发布AI Agent—Operator,全民智能体时代来了

    今天凌晨2点,OpenAI终于发布了传闻已久的AIAgent——Operator。Operator是一个面向浏览器的智能体,能够模拟人类操作计算机的能力,完成在线订餐、预订酒店、购买机票等日常繁琐、重复任务。Operator处于预览版状态,仅提供给美国Pro用户使用,很快会扩大应用范围。

  • AI日报:百川智能深度思考模型Baichuan-M1-preview;OpenAI发布首个AI智能体Operator;HeyGen新增数字人运动控制功能

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、百川智能发布全场景深度思考模型Baichuan-M1-preview已在百小应上线百川公司今日推出了Baichuan-M1系列模型,其中包括全场景深度思考模型Baichuan-M1-preview和开源医疗增强大模型Baichuan-M1-14B。此举不仅推动了人工智能的民主化,也为数百万用户提供了前沿技术的接入,同时确保了付费用户的价值体验。

  • 即将起飞的智能体,怎么落子?

    AI圈春节无眠,DeepSeek凭借一己之力在国内外掀起了腥风血雨。DeepSeek-R1彻底打开了强化学习的“黑匣子”,也撕下了以OpenAI为代表的闭源大模型“遮羞布”。“采销东哥”出圈,商家们正是看到京东自己“用得好”,才选用言犀数字人解决方案一样,对于客户言,他们所需要的Agent不是花里胡哨的营销是要一把经过实际验证有效的产品。

  • 三维天地全力打造数据资产管理领域 AI智能体,全面适配 DeepSeek,赋能企业数智化转型!

    是企业数字化转型的核心驱动力。面对海量数据,如何高效分析、挖掘价值,如何便捷管理、安全利用,成为企业面临的共同挑战。三维天地推出的全新人工智能产品SunwayDeepLink,将成为新时期企业数据资产管理的得力助手,助力企业释放数据价值,为企业数智化转型保驾护航。

  • OpenAI源代码分享!实时AI Agent,20分钟开发语音智能体

    让你开发一个语音智能体应用原型大概需要多久?3天?5天?,OpenAI刚分享了一个基于RealtimeAPI开发的多层级高级AIAgent,只用了20分钟!OpenAI已经在github公开了源代码,虽然只是一个演示demo但很快就突破了1200颗星,尤其是超高的开发效率让很多老手都感到惊讶。代码地址:https://github.com/openai/openai-realtime-agents?tab=readme-ov-file实时Agent技术特点实时Agent能提供高效的数据交互能力,在用户说话的同时就能立刻响应,极大减少了等待时间,同时优化了数据传输和处理流程,确保了高效率和低延迟,这对于开发语音类智能体非常重要。在不到20分钟,使用多Agent流程构建一个语音应用原型……惊掉下巴。

  • AI爆程序员失业潮!小扎正开发编程智能体,「中级程序员」剩最后一年?

    【新智元导读】近日,小扎在采访中透露,Meta等一众大厂或许将在今年拥有能够媲美中级软件工程师的AI;在未来,AI将能够完成几乎所有的编码工作,甚至是AI系统本身的开发。面对即将到来的智能浪潮,人类该如何未雨绸缪?个人又该如何适应变革?今年,编程可能从就业市场上最受追捧的技能之一,变成一种可以完全自动化的技能。最重要的是,我们选择如何驾驭它:这些将决定它是成为推动进步的动力是引发动荡的源头。

  • 智能体到世界模型,2025年AI行业还会发生哪些大事?

    2024年,是AI指数级发展的又一年。大模型浪潮滚滚向前,在技术创新和应用落地上取得多项突破,引起了海内外广泛关注和讨论。“AI新榜”会继续和你一起见证、参与AI行业的风起云涌。

  • 扎克伯格:Meta今年将开发AI编程智能体 媲美中级软件工程师

    Meta公司创始人马克扎克伯格在采访中透露,今年Meta等大厂可能会研发出一种能力媲美中级软件工程师的AI,这种AI将能够完成大部分编码工作,甚至包括AI系统本身的开发。扎克伯格设想在不久的将来,Meta的代码编写和AI系统开发将更多地依赖于AI工程师非传统的人类工程师。o3基准测试已经突破了之前的壁垒;特定领域的AI智能体已经能够进行复杂的研究工作;多模态系统也能够创造出越来越精妙的内容。

热文

  • 3 天
  • 7天