首页 > 业界 > 关键词  > Microsoft最新资讯  > 正文

微软智能语音大升级:方言念古诗无压力

2023-01-17 10:15 · 稿源: 快科技

随着技术的发展,AI智能语音的表现力与拟真性也在不断提升,从一开始僵硬的机械音逐渐发展到了能够识别语句结构,将文本富含情感的念出来。

现在,Microsoft认知服务官方宣布,微软的智能语音技术再次获得升级,在语音合成上实现了多种方言的支持。

目前,微软智能语音除了标准普通话外,还支持吴方言、粤方言、西南官话、东北官话、冀鲁官话、中原官话在内的多种方言,并能够流畅进行朗读古诗、语音播报等交互行为。

同时,在语音识别上,该技术目前已经支持了三种方言,扩宽了用户群体。

据悉,微软智能语音基于Azure Neural TTS(text-to-speech,语音合成)与 STT(speech-to-text,语音识别)两大技术,支持的语音区域已经超过140个,并支持超过400多个音色。

该技术的语音具有丰富细腻的情感,能够做到与真人不分伯仲。

举报

  • 相关推荐
  • 大家在看
  • 吾爱大神超强AI智能语音合成工具Read Aloud 集成微软TTS语音合成技术

    为大家介绍一款名为ReadAloud的Windows电脑版文字转语音工具,由吾爱大神制作。这款工具集成了微软的TTS语音合成技术,可以支持几十种语言进行语音合成转换,声音逼真度极高。这个工具对于那些不擅长说话或需要标准发音的人来说是一个福音,可以合成完美的语音来代替自己说话,特别适合懒人和外语学习者使用。

  • ChatGPT大升级:支持图片和语音输入 严格限制被诈骗利用

    近日OpenAI宣布推出新版ChatGPT,增加了两项新功能:语音输入和图像输入。据OpenAI称,新功能将在未来两周内向ChatGPTPlus订阅用户推出,其他人也将很快”能够使用这些功能。语音功能将在iOS和Android平台推出,图像功能将覆盖所有平台。

  • RIAA 呼吁政府将人工智能语音克隆网站列入盗版监管名单

    美国唱片工业协会最近提出了一个要求,呼吁美国政府将人工智能语音克隆网站纳入在线盗版监管名单。这一名单通常包括一些特定的公司、网站或地区,如全球速卖通、微信和海盗湾。尽管RIAA表示担心Voicify等网站可能鼓励更多未经授权使用他人声音的行为,但目前尚不清楚法律将如何处理人工智能侵犯公开权的问题。

  • 华为P70曝光:影像系统大升级

    华为Mate60系列的发布引发了广泛的关注,尽管华为并未明确表示,但多个消息显示Mate60系列将搭载麒麟芯片。这也表明华为已经摆脱了美国的制裁,重回正轨。华为Mate60则搭载了超光变主摄,物理光圈支持十档可调,配合潜望式长焦摄像头和超广角摄像头,可以满足日常多种拍摄需求。

  • 新旗舰手机屏幕弧度大升级!比上一代曲面屏还直

    博主Onleaks发布了一组三星GalaxyS24Ultra手机与上一代旗舰的对比图,展示了这款新机的屏幕细节。从图上可以看出,GalaxyS24Ultra的屏幕弧度与上一代机型相比有了明显区别。预计GalaxyS24Ultra将搭载骁龙8Gen3处理器,屏幕分辨率为WQHD,屏幕峰值亮度达到2500尼特,后置四摄:200MP主摄、12MP超广角镜头、50MP潜望式镜头、10MP长焦镜头,并支持IP68级防尘防水。

  • iPhone SE4曝光:重大升级刘海屏

    苹果公司计划对iPhoneSE4进行一系列重大升级,包括全新的外观设计和大幅度提升的配置。iPhoneSE4的内部代号为“Ghost”,目前的内测机型与iPhone14的外观保持一致,并具有相同的参数。iPhoneSE4将成为SE系列中首款采用刘海屏的机型,屏幕尺寸为6.1英寸,刷新率为60Hz,定价预计在3500-4000元之间。

  • ChatGPT喜迎大升级:终于能“联网”了 不再局限于2年前旧数据

    OpenAI宣布,旗下聊天机器人ChatGPT现在打通互联网了,可以为用户提供最新的搜索信息。ChatGPT无法使用网络搜索,只能利用经过培训的信息这些信息仅限于2021年9月之前从互联网抓取的数据。大家将体验到没有封印”的进化版ChatGPT。

  • 邓邱伟:依托HomeGPT 海尔智家大脑2.0实现2大升级

    随着技术条件的成熟和需求的增加,今年AI大模型呈现井喷式发展。大模型正在激发各行各业对产品、服务、场景、需求和商业价值的重新想象,但具体到落地,是选择通用大模型还是垂直大模型,却各有考量。邓邱伟也自豪地表示:“HomeGPT成就了更聪明家庭大脑,我们希望通过海尔智家大脑2.0,让更多理想生活照进现实,让家这个最美好的单位,创造更多舒适的生活方式。

  • 团圆佳节故土 快手掀起乡土文化新潮流

    情更浓,无论走到哪里,人们心中总有一抹乡情连接着家乡的土地。2023年中秋节,快手推出中秋礼盒「快手土特产」,携手快手达人,打造一份定制土特产,用丽江果干、云南咖啡、民间版画等传递乡土风情,掀起了乡土文化新潮流。快手也会持续为创作者赋能,不断构建繁荣生态,从政策扶持、发展引导、商业变现等多维度,助力传统文化传播。

  • 消息称iPhone 17系列屏幕有重大升级:“胶囊屏”时代终结

    业内人士RossYong透露,iPhone17系列屏幕有重大升级。iPhone17Pro和iPhone17ProMax将会首发屏下FaceID技术,届时iPhone17Pro系列将会采用挖孔屏形态,告别胶囊屏”。为了保证前置摄像头成像素质,苹果暂时没有将摄像头做到屏下,最终呈现的是一款拥有3D人脸识别的挖孔屏手机。

  • GPTsWorks:第三方GPTs商店,聊天搜索GPTs。

    GPTs Works 是一个第三方GPTs商店,提供用户通过聊天的方式搜索和发现各种GPTs。该平台汇集了大量优秀的GPTs资源,用户可以通过提交链接或直接与平台交互来获取所需信息。平台的主要优点包括丰富的GPTs资源、便捷的搜索方式以及高效的信息获取能力。

  • ChartFast:AI数据分析师,秒速生成复杂图表。

    ChartFast是一个AI数据分析师工具,旨在简化您的数据可视化和分析任务。它自动化了重复且耗时的数据工作,让您能够快速生成精确而时尚的图表。

  • String Theories:探索和理解弦理论的交互式平台

    String Theories 是一个致力于教育和普及弦理论的交互式网站。它通过可视化工具和模拟,帮助用户理解复杂的物理概念,如弦、膜以及它们在宇宙学中的应用。该平台由物理学家和教育者共同开发,旨在提高公众对现代物理学前沿理论的认识。

  • Studymap.ai:个性化学习计划生成器

    Studymap.ai 是一个利用人工智能技术帮助用户生成个性化学习计划的在线平台。用户可以通过上传YouTube视频链接或文章,平台将基于这些内容生成具有结构化的章节、在线资源和项目想法的完整课程。它还提供进度跟踪功能,帮助用户更有效地学习。

  • ResumaidPro:定制化简历构建工具,AI辅助,提升求职效率。

    ResumaidPro是一款利用人工智能技术帮助求职者快速定制化简历的在线工具。它通过浏览器插件形式,允许用户在浏览器标签页内直接定制简历,优化简历内容以通过自动应聘筛选系统(ATS)。它使得简历定制化变得简单快捷,节省了求职者宝贵的时间,同时提高了求职成功的几率。产品背景是通过利用技术改善简历编写过程,以适应快速变化的就业市场。产品提供了不同套餐,包括按月或按季度计费,并且提供了免费试用。

  • CheckVisaSlots:实时监测美国签证预约空位

    CheckVisaSlots是一个专注于帮助学生和旅行者监测美国签证预约空位的在线服务。它通过提供实时的签证预约信息,帮助用户及时了解签证预约的可用情况,从而更好地规划他们的签证申请流程。该服务特别适合那些需要及时获取签证信息以安排旅行或教育计划的用户。

  • 星界AI:一站式AI图文创作神器

    星界AI是一款集成了多种AI大模型的图文创作神器,包括ChatGPT、谷歌Gemini、百度文心一言等,提供文案创作、知识问答、教育辅导、灵感启发等功能,以提高工作效率和创造力。

  • 神笔AIPPT系统:一键生成海量模板,支持SaaS多开的全开源系统

    神笔AIPPT系统是一款支持一键生成和海量模板的在线建站工具,采用SaaS模式,允许无限多开。该系统基于thinkphp 6.1 + mysql 5.7 + vue3 + vite5技术栈开发,完全开源,支持定制二次开发,适用于需要快速搭建个性化网站的用户。产品原价2888元,提供详细的安装部署文档和参数配置文档,以及使用过程中的免费指导服务。

  • Vozo:AI视频生成器,一键重写和配音视频。

    Vozo是一个AI视频生成器,它允许用户通过AI提示重写视频脚本、自动配音和唇形同步,从而快速生成新的视频内容。它支持将视频翻译成多种语言,并且可以针对不同的受众群体定制视频内容。Vozo的主要优点包括易用性、高效性以及能够保持原有视频的魅力。

  • 扣子专业版:企业级 AI 开发平台,无需编程技能,快速搭建个性化应用。

    扣子专业版是一款企业级 AI 应用开发平台,旨在帮助用户快速、低门槛地构建个性化的 AI 应用,支持无编程技能的用户使用。该平台拥有 1 万 + 插件的丰富生态,能够构建功能强大的大模型应用,同时支持数据私有化及团队协作,适合各类企业需求。定价灵活,能够满足不同规模的企业使用需求,是推动企业数字化转型的重要工具。

  • Gobi:个性化情绪健康指导APP

    Gobi是一款致力于提供个性化情绪健康指导的应用程序。它由一群对AI充满热情的团队开发,团队成员来自Google、Microsoft、Meta和Scale AI等知名公司。Gobi通过实时生成基于科学的语音指导健康实践,帮助用户管理情绪健康。产品的主要优点包括全天候的人性化健康支持、适应性AI个性化、实时健康实践生成、日常检查和情绪健康跟踪等。

  • DiT-MoE:大规模参数扩散变换器模型

    DiT-MoE是一个使用PyTorch实现的扩散变换器模型,能够扩展到160亿参数,与密集网络竞争的同时展现出高度优化的推理能力。它代表了深度学习领域在处理大规模数据集时的前沿技术,具有重要的研究和应用价值。

  • Picogen AI Image API:AI图像生成API,提供高质量的4K图像生成和编辑功能。

    Picogen AI Image API是一个领先的AI图像生成平台,提供与Midjourney, Stable Diffusion和DALL-E相媲美的高质量图像生成服务。它支持生成高达4K分辨率的图像,并且具备图像合并、背景移除和8K分辨率的图像放大等高级功能。Picogen旨在为数字营销人员、平面设计师、内容创作者等专业人士提供强大的视觉内容创作工具。

  • Colocio AI:一站式在线营销工具,由AI驱动,简化广告和内容创作。

    Colocio AI是一款集成了人工智能技术的在线营销工具,旨在帮助用户创建、评估和自动化在线广告活动。它通过AI技术生成高转化率的广告文案和社交媒体内容,提供无障碍的内容调度功能,以及实时的AI辅助和数据驱动的报告,帮助用户优化广告活动,提高性能。Colocio AI的背景是简化内容和媒体创作流程,专注于为品牌和目标受众量身定制内容,同时释放用户时间,让他们专注于战略规划和与受众互动,推动业务创新和增长。

  • Supermemory.ai:你的个人数字第二大脑

    Supermemory是一个致力于帮助用户组织、搜索和利用保存信息的平台。它提供强大的工具,如搜索引擎、写作助手和画布,旨在成为用户的个人第二大脑。它注重隐私保护,可在任何地方工作,支持自托管,并且价格亲民,提供免费层级。

  • Dialed:个性化AI激励演讲,激发潜能。

    Dialed是一款AI驱动的应用程序,旨在通过个性化的激励演讲来激发用户的潜能。无论是健身、演讲还是日常挑战,Dialed都能提供个性化的激励和启发。产品的主要优点包括个性化的激励演讲、真诚的支持、传奇的演讲定制、多种声音选择、背景音乐以及AI生成的激励图像。此外,Dialed还允许用户将激励演讲分享给朋友和家人。

  • Aphrodite-engine:PygmalionAI的大规模推理引擎

    Aphrodite是PygmalionAI的官方后端引擎,旨在为PygmalionAI网站提供推理端点,并允许以极快的速度为大量用户提供Pygmalion模型服务。Aphrodite利用vLLM的分页注意力技术,实现了连续批处理、高效的键值管理、优化的CUDA内核等特性,支持多种量化方案,以提高推理性能。

  • ICSFSurvey:深入研究大型语言模型的内部一致性和自我反馈

    ICSFSurvey是一个关于大型语言模型内部一致性和自我反馈的调查研究。它提供了对LLMs自我评估和自我更新机制的统一视角,包括理论框架、系统分类、评估方法、未来研究方向等。

  • Stable Audio Open demo:从文本提示生成立体声音频

    Stable Audio Open 是一个能够从文本提示生成长达47秒的立体声音频的技术。它包含三个主要组件:一个将波形压缩到可管理序列长度的自编码器、一个基于T5的文本嵌入用于文本条件、以及一个在自编码器的潜在空间中操作的基于变换的扩散(DiT)模型。该技术在生成音频方面表现出色,能够根据文本提示生成各种类型的音频,如打击乐、电子音乐、自然声音等。

  • Claude Engineer:利用Anthropic的Claude模型辅助软件开发任务的高级命令行界面。

    Claude Engineer是一个高级的命令行界面,它利用Anthropic的Claude 3和Claude 3.5模型的能力,来协助完成广泛的软件开发任务。这个工具无缝地结合了最先进大型语言模型的能力与实用的文件系统操作、网页搜索功能、智能代码分析和执行能力。

今日大家都在搜的词: