首页 > 数码 > 关键词  > 微软最新资讯  > 正文

微软申请新专利以解决语音命令无法准确传达的尴尬

2019-01-05 21:42 · 稿源: 手机中国

语音控制已经存在了一段时间,现在几乎每个新设备都在监听你的语音命令并以不同的准确度执行它们,尽管这为人们提供了便利(当它们能够正常工作时),但大多数人仍然不愿意与他们的设备说话,特别是当周围有其他人时。 似乎没有哪家公司想要解决这个问题,并且化解设备无法理解你

......

本文由站长之家合作伙伴自媒体作者“手机中国”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • OpenAI和微软的关系没那么糟,跟英伟达也没那么好

    OpenAI的动作比所有人想象的都要快。 上周二,OpenAI完成重组。其中一个重要变化是:彻底取消了与微软的排他性协议,结束了Azure长达六年的云服务独占模式。此前,OpenAI所有模型的训练、推理与部署都必须优先选择Azure,微软还享有优先购买权。 宣布与Azure“分手”后不到一周,OpenAI便火速宣布了与AWS的战略合作——双方达成一项价值380亿美元的云计算协议,OpenAI将全面接入

  • 中国移动北斗卫星短信业务升级:支持文字+图片+语音

    中国移动宣布北斗短信息服务完成重大升级,新增图片、语音等富媒体功能,文本传输能力显著提升,单条消息可发送40个汉字、接收达10个汉字。Redmi Note 15 Pro+卫星消息版率先支持升级,其他品牌终端也将陆续开启。此次升级在无地面网络信号时仍能通过多种形式传递信息,为户外探险、应急救援等场景提供坚实通信保障,标志着北斗通信正式步入“视听兼具”新时代。

  • MiniMax让AI语音有了新基建

    熟悉MiniMax的人都了解这家公司的调性——不鸣则已,一鸣惊人。 要么选择低调,要么发动技术连招,其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。 十月的最后一周,再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化,基础文本模型M1升级至M2,“专为Agent和代码而生”;视频模型升级至Hailuo2.3,Hailuo Video Agent迭代为“全模态全�

  • Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

    Soul App近日开源其播客语音合成模型SoulX-Podcast,专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言,可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外,在通用语音合成及克隆任务中表现优异,能灵活调节节奏与副语言元素(如笑声),提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • AI日报:豆包推全自动多人配音系统;Adobe Firefly Image 5重磅升级;Soul语音模型SoulX-Podcast发布

    本期AI日报聚焦多项技术突破:豆包推出全自动有声剧系统,实现98%角色识别准确率;Adobe Firefly Image 5支持400万像素原生输出及AI音轨生成;Soul发布90分钟无中断播客生成模型;360推出全球首款L2-L4全栈智能平台;IBM发布可在普通设备运行的Granite 4.0 Nano模型。市场方面,移动端AI用户突破7亿,豆包领跑原生应用;PayPal与OpenAI合作使ChatGPT集成支付功能;谷歌推出AI营销工具Pomelli,可基于URL自动生成营销内容。

  • 美股4万亿美元市值上市公司已达3家 苹果、微软、英伟达组成三巨头

    10月28日,苹果与微软股价同步上涨,双双突破4万亿美元市值大关,与超4.6万亿美元的英伟达共同构成全球市值最高的“三巨头”格局。微软因与OpenAI资本重组推动股价涨超3%,持有后者价值1350亿美元股权;苹果则凭借新一代iPhone强劲需求实现股价逆袭,年内首度由跌转升。英伟达仍以最高市值稳居全球第一,凸显全球科技产业对算力需求的爆发式增长。

  • 声网与Oopz达成战略合作 共同打造游戏语音场景AI降噪极致体验

    游戏语音头部平台Oopz与声网达成战略合作,聚焦游戏开黑场景中的噪音问题。双方将结合AI降噪技术,针对复杂多变噪音环境,解决降噪不彻底、过度降噪等痛点,提升玩家沉浸式开黑体验。未来合作将覆盖连麦降噪、环境音消除等方向,优化主播端功能,共同打造更稳定流畅的语音解决方案。

  • AI日报:腾讯发布全新ima2.0;微软发布 Copilot 一系列重磅更新;阿里夸克AI眼镜开启预售

    本文汇总近期AI领域重要动态:月之暗面再获数亿美元融资,显示资本对国产大模型的信心;Anthropic为Claude推出记忆功能,兼顾个性化与隐私保护;中科大与字节发布MoGA长视频生成模型,实现分钟级高质量生成;腾讯ima2.0升级任务模式,可自主拆解复杂流程;阿里夸克AI眼镜开启预售,融合拍摄与智能功能;微软Copilot新增群聊、记忆与Edge AI模式;Opera推出深度研究代理ODRA提升�

  • 谷歌在Pixel 3上悄然移除语音命令解锁设备功能

    正如外媒Piunikaweb首次报道的,谷歌已经在Pixel 3和Pixel 3 XL上悄然移除了语音解锁设备的功能。在过去两代Pixel设备上,允许用户通过“OK Google”命令来解锁设备。目前谷歌官方支持页面已经确认不再支持这项功能。

今日大家都在搜的词: