首页 > 传媒 > 关键词  > 百度语音最新资讯  > 正文

不玩围棋玩服务,百度语音搜索的AI之路

2016-03-11 10:51 · 稿源: 站长之家用户

人机大战对决尚未结束,一条关于“阿法狗不敢挑战麻将”的段子便火了起来——

“为什么阿法狗不敢挑战麻将?因为一个阿法狗挑战三个人类,一点胜算没有;两个阿法狗挑战两个人类,不要以为势均力敌,我一个眼神就知道朋友要什么牌;三个阿法狗……三个阿法狗太贵了。”

虽然是玩笑,不过却也能从中窥探到当前人工智能发展过程中面临的挑战。尽管谷歌AlphaGo 2:0胜李世石的比赛结果让很多普通网友大呼惊讶。然而对于众多科技发烧友而言,这仅仅表明,在可以凭逻辑分析推算的问题上,机器开始可以把人类抛在后面。

试以下围棋为例,无论围棋的回合和局面有多么复杂,它都是在封闭规则下的单一任务,不涉及思维、对话和情感。而一旦比赛换成麻将,正如段子中所言,“我一个眼神就知道朋友要什么牌”,对于眼神这样的情感交流,或者是其他对话的沟通,处于弱人工智能阶段的谷歌AlphaGo显然无法理解。

那么,当前人工智能的发展是否仅仅停留在这类和人类智力博弈的游戏竞技上?

答案是否定的。

很多科学家已经将目光着眼于更高层次的强人工智能,其中的典型代表便是百度正在深耕的语音搜索。

语音搜索并不只是一种简单的AI技术,而是将多种人工智能技术整合起来的典型应用,包括语音识别、自然语言处理(对语言的理解)、对数据的挖掘和呈现。其相较于下围棋这种单一问题、封闭规则的任务要复杂得多,因为思维、对话、情感等都是不确定的,多轮对话更是典型。

比如,当你打开手机百度,按住下方的麦克风向它询问一系列问题,百度语音搜索会根据语义和语境与用户进行多轮对话互动。

l “北京今天几号限行?”

“北京今天限行尾号为1和6。”

l “几点到几点限行?”

“早七点至晚八点限行。”

l “明天呢?”

明天限行尾号为2和7。”(注:如果无法实现多轮交互,则往往会回答“星期五”)

l “后天呢?”

“后天不限行。”

按住下方蓝色麦克风,即可与百度语音搜索进行多轮对话

搜索引擎能够完成与用户多轮对话,需要像人与人之间的交流一样,要基于上下文理解用户的意图。要做到这一点主要是技术挑战大——毕竟,机器识别单句自然语言的语义都不容易,而基于上下文等于要不断记录交互过程,要知道人类有时候都“跟不上”别人说话。

目前,百度基于深度学习的Deep Speech技术部分实现了多轮交互,这种语音识别技术甚至超过了微软和Google。在最近《麻省理工科技评论》公布2016年十大突破技术中,百度还凭借领先的语音交互技术登上榜单。通过深度语音识别系统,百度将人们从传统的利用触摸屏输入汉字发出指令中解放出来,实现语音支配搜索。在帮助年轻用户更好地获取所需同时,也为中老年人以及教育落后地区用户平等享受技术发展提供了契机。

除了多轮交互,百度语音搜索让人瞩目的地方还在于它并非简单的语音识别,而是包含着对需求的理解和对数据资源的理解。比如当你向它询问“今天有风吗”,文字输入会呈现6天详细的天气预报,而语音搜索不仅会呈现天气预报页面,更会语音回答用户“北京今天微风”。再比如当你询问“我要看电影”时,百度搜索能够真正识别这类语言表达背后用户的真实意图,给用户提供附近电影院的团购服务。之所以存在这样的区别,便是百度准确理解了语音背后的需求,结果的交付便更加智能了。事实上,只有语义理解的突破,语音识别才能脱离桎梏,获得质的飞跃。

不同于文字搜索,语音搜索在出现搜索结果页面后还会进行语音播报

百度语音搜索可以理解用户需求提供电影购票服务

“未来五年用户的移动需求会发生质的变化,” 百度董事长兼CEO李彦宏表示,通过语音、图像等非文字形式表达的用户需求将超过50%。而作为交互方式,语音识别在物联网、智能硬件、自动驾驶等等领域,都将发挥重要作用。凭借能同时提供服务内容和智能技术的独特价值,百度一方面将极大地方便着、影响着每一个普通人的生活,另一方面也助推中国人工智能迅速跻身世界首先梯队,为全球AI带来更多想象空间。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • Sora App的AI视频社交,给了百度们新希望

    Sora2发布两周后,百度的蒸汽机AI视频模型,和谷歌Veo3.1撞了档期。 两家公司选择同期发布并非有多默契,而是Sora2带来的压迫感促使它们不得不加快脚步。 奥尔特曼将形容Sora2为“创意领域的ChatGPT3.5时刻”,不仅在物理逻辑、画面连贯性、真实感和音画同步等方面实现了质的飞跃,还把Sora从一个“文本到视频”的工具进化成一个“创意到生态”的平台。 这无疑是扔在AI视�

  • 百度旗下小度AI眼镜Pro正式开售:售价2299元

    站长之家(ChinaZ.com)11月10日 消息:今日,百度旗下备受瞩目的小度 AI 眼镜 Pro 正式开启发售,售价定为2299元,这一消息迅速吸引了众多科技爱好者和消费者的目光。在外观设计上,小度 AI 眼镜 Pro 提供了波士顿和猫眼两种时尚款式,满足了不同消费者的审美需求。镜片方面,用户既可以选择墨镜款式,也能挑选光致变色镜片,而且支持直接配近视镜片,无需采用夹片设计,为

  • AI日报:月之暗面开源AI新框架Kosong;百度发布新模型ERNIE-4.5-VL;GPT-5.1“隐身”登场

    本期AI日报聚焦多项技术突破:月之暗面开源AI代理框架Kosong,支持异步编排与插件化设计;Replit推出AI集成功能,可一键调用300+模型;商汤发布空间智能模型SenseNova-SI,性能超越GPT-5;百度推出多模态模型ERNIE-4.5-VL,新增图像思考能力;谷歌地图全面AI化,集成Gemini实现智能交互;ChatTutor上线可视化教学系统,覆盖多学科实时推演;新版Google Finance引入AI深度搜索与财报追踪;OpenAI低调上线Polaris Alpha模型,支持256K上下文并更新知识库至2024年10月。

  • AI日报:广电整治AI动画乱象;360发布大模型安全白皮书;百度推出小度AI眼镜Pro

    国家广电总局宣布自2026年3月起全面整治AI生成内容,要求AIGC作品纳入分类分层审核体系。360发布《大模型安全白皮书》,提出全链路AI安全防线应对新型威胁。百度推出2299元小度AI眼镜Pro,集成智能翻译等多项功能。StepFun开源音频编辑模型Step-Audio-EditX,实现文本化语音编辑。Grok新增纯文本生成视频功能,17秒可生成带特效视频片段。研究发现谷歌Veo-3模型能生成逼真手术视频但缺乏医学逻辑。阿里Qwen3-Max-Thinking在全球数学竞赛夺冠,并在加密货币交易中取得显著回报。OpenAI推出轻量化GPT-5 Codex Mini模型,优化开发者体验。

  • 百度智能云联合昆仑芯、HAMi,落地双模式算力调度方案,提升算力利用率

    百度智能云联合昆仑芯与CNCF开源项目HAMi,推出基于昆仑芯P800的XPU/vXPU双模式算力调度方案。该方案已在金融客户集群落地,支持智能客服、营销辅助等十余类AI业务,兼顾稳定性与灵活性。XPU整卡模式通过拓扑寻优调度保障大规模训练性能,vXPU虚拟化模式以多粒度切分实现单卡多任务,最大化资源利用率。双模式协同让国产算力高效匹配业务需求,同时提供自动化调度与人工调节结合的灵活管理能力。

  • AI日报:美团LongCat-Flash-Omni发布;Qwen3-Max上线深度思考功能;百度“文心”5.0重磅回归

    本期AI日报聚焦多领域技术突破:美团发布全模态交互模型LongCat-Flash-Omni;阿里通义千问Qwen3-Max上线深度思考功能;百度文心5.0升级多模态生成能力;谷歌确认Gemini3年内发布并整合至苹果Siri;OpenAI向多国开放Sora2视频工具;云存储与AI开发工具持续优化,展现行业加速迭代态势。

  • 从搜索排名到AI搜索可见性监控 :品牌可见度的下一场战争,已经打响!

    随着AI搜索逐渐取代传统搜索,品牌在AI模型中的曝光度成为新流量入口。文章指出,品牌AI搜索监控能量化品牌在各大AI平台的提及频率、与竞品对比表现及触发关键词,帮助企业优化内容策略。以徕芬品牌为例,通过AIBase平台监测发现其高频曝光数据,说明AI推荐正成为品牌认知新战场。未来3-5年,品牌需通过持续监控主动提升AI可见度,从"被动曝光"转向"主动可见"。

  • 百度百科词条总量突破3000万,联合《大学科普》等多机构推出科普专刊

    10月24日,百度百科联合《大学科普》推出“繁星计划”主题专刊,作为该刊2025年第3期面向全国高校发行,助力权威科普传播。同日,繁星计划新增北京林业大学林学院等5家合作机构,扩大行业影响力。该计划自2024年12月启动,已联合10万专家、500家机构共建超100万专业词条,百度百科词条总量突破3000万。通过与权威期刊合作,百度百科旨在为高校学子搭建连接前沿科学与知识普及的桥梁,践行“让知识轻松可及”的使命。

  • 百度智能云这项开源,让 DeepSeek-V3.2 推理服务吞吐提升 2 倍

    10月28日,百度智能云联合SGLang社区开源针对DeepSeek-V3.2优化的多token预测(MTP)技术代码。该技术通过批量生成和集中验证机制,使模型解码吞吐量提升超2倍,突破传统自回归解码的序列化瓶颈。此次开源的MTP方案已完成与DeepSeek-V3.2稀疏注意力架构的深度适配,并经过百度内部业务验证,开发者可"开箱即用"获得稳定可靠的推理加速能力。

  • 免费!AI对话式搜索词挖掘工具,一键检测品牌在AI搜索中的可见度

    本文探讨在AI搜索时代如何提升品牌、产品或内容的AI推荐可见度。关键在于挖掘AI对话式搜索词并优化内容,避免因未被AI抓取或排名靠后导致流量损失。推荐使用AIBase平台的GEO排名查询工具,免费检测品牌在主流AI搜索中的曝光度、排名及竞品对比,并提供优化建议,帮助抢占AI流量高地。该工具覆盖多平台,操作简单,适合企业、内容创作者及电商使用。

今日大家都在搜的词: