亚马逊发布其有史以来的文本转语音模型 BASE TTS

2024-02-18 09:44 · 稿源：站长之家

划重点:
⭐️ 亚马逊 AGI 团队发布了有史以来最大的文本转语音模型，具有最多的参数和最大的训练数据集。
⭐️ 新模型名为 BASE TTS，拥有980亿参数，使用了10万小时的录音数据进行训练，主要是英语。
⭐️ 该团队计划将 BASE TTS 用作学习应用，以改进文本转语音应用的人类声音质量。

站长之家（ChinaZ.com）2月18日消息:亚马逊 AGI 的人工智能研究团队宣布开发了他们所描述的有史以来最大的文本转语音模型。所谓最大，是指拥有最多参数并使用最大训练数据集。他们在 arXiv 预印服务器上发布了一篇论文，描述了该模型的开发和训练过程。

与 ChatGPT 等大型语言模型（LLMs）因其人类化的智能回答问题和创建高水平文档的能力而备受关注不同，人工智能正在逐步应用于其他主流应用。在这一新尝试中，研究人员试图通过增加模型参数的数量和扩充训练基础来改进文本转语音应用的能力。

这一新模型被称为 Big Adaptive Streamable TTS with Emergent abilities（简称为 BASE TTS），拥有98亿参数，并使用了10万小时的录音数据进行训练，其中大部分是英语。该团队还为其提供了其他语言中已知短语的口语单词和短语示例，以使模型在遇到这些短语时能够正确发音，比如 “au contraire” 或 “adios， amigo”。

亚马逊团队还在较小的数据集上对模型进行了测试，希望了解模型何时会出现所谓的新兴特性，即人工智能应用，无论是 LLM 还是文本转语音应用，突然似乎突破到更高层次的智能。他们发现，对于他们的应用程序来说，新兴特性出现在拥有1.5亿参数时。

他们还指出，这种飞跃涉及一系列语言属性，例如使用复合名词，表达情感，使用外语词汇，应用语音附加语和标点，以及在句子中将重点放在正确的单词上提出问题。

该团队表示，他们不会向公众发布 BASE TTS，因为他们担心它可能被不道德地使用，而是计划将其用作学习应用。他们希望应用他们迄今为止所学到的知识，以改进文本转语音应用程序的人类声音质量。

论文网址：https://dx.doi.org/10.48550/arxiv.2402.08093

（举报）

相关推荐
大家在看

关键词：

文本转语音

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
Parler-TTS：一个高质量文本到语音（TTS）模型

一个名为Parler-TTS的全新开源项目引起了业界的广泛关注。Parler-TTS是一个高质量的文本到语音模型，它能够生成听起来非常自然的语音，为用户提供了前所未有的语音合成体验。项目团队还提供了交互式的演示和详细的训练指南，帮助用户快速上手并根据自己的需求对模型进行定制。

语音模型 Parler-TTS AI头条
亚马逊音乐推出 Maestro:AI 根据文本提示创建个性化播放列表

亚马逊音乐推出了一项名为Maestro的人工智能功能，旨在让用户通过简单的文本提示构建个性化的音乐播放列表。该功能可在iOS和Android应用程序上使用，利用自然语言生成播放列表，为用户带来更加便捷的音乐体验。这一创新性的AI功能为音乐爱好者带来了更多探索和发现音乐的乐趣，为亚马逊音乐平台增添了更多吸引力和竞争优势。

亚马逊音乐 Maestro 人工智能功能
Parler-TTS官网体验入口 AI语音生成工具免费使用地址

Parler-TTS是一个由HuggingFace开发的轻量级文本转语音模型，能够以给定说话者的风格生成高质量、自然sounding的语音。它是基于DanLyth和SimonKing发表的论文《Naturallanguageguidanceofhigh-fidelitytext-to-speechwithsyntheticannotations》的工作复现，两位作者分别来自StabilityAI和爱丁堡大学。此工具还提供了丰富的注释语音数据集，让您从中受益。

Parler-TTS
万里汇和亚马逊加强合作，携手Buy with Prime服务中国卖家

第四届中国跨境电商交易会在福州举办，蚂蚁集团万里汇受邀亮相，凭借优质的跨境支付金融产品和服务，获“2024中国跨境电商服务企业十强”奖项。“2024中国跨境电商服务企业十强”由中国跨交会组委会联合美通社评选颁发，从品牌影响力、企业规模、发展潜力、口碑、创新能力等多维度综合审查考评，形成最终榜单。该合作使万里汇的跨境商家得以借助BuywithPrime特有的快速、免费配送服务以及深受买家喜爱的结账体验，获得业务增长新机遇。

中国跨境电商交易会蚂蚁集团万里汇
亚马逊入库配置费新规下，这样发货超省钱！

自今年3月入库配置费新规实施以后，很多卖家朋友都慌了神!到底选美西还是美东?1个货件?2个货件?还是4个以上?AGL这路子到底走不走得通?完啦，这才刚开始想，头就已经开始大了!另外，还有发货量的问题。发货量少，因分仓未达起送标准，费用增加;发货量商品种类稍多一些的呢，虽有亚马逊后台计算器可用，但数量限制在20个，计算麻烦;同时卖家还需考虑AGL物流，到底如何�

AGL物流入库配置费美东
讯飞星火大模型V3.5升级推出长文本、长图文、长语音大模型

科大讯飞今日发布重大更新，讯飞星火大模型V3.5升级，不仅推出了首个长文本、长图文、长语音大模型首次将多情感超拟人合成技术引入市场，并同步推出了星火智能体平台。这一系列创新举措，旨在为招投标应用和合同应用提供更为强大的技术支持。插件市场和原生应用也为开发者和用户提供更多功能和工具选择，共同构建讯飞星火大模型生态。

科大讯飞讯飞星火大模型V3.5 多情感超拟人合成技术
文本直接生成2分钟视频，即将开源模型StreamingT2V

Picsart人工智能研究所、德克萨斯大学和SHI实验室的研究人员联合推出了StreamingT2V视频模型。通过文本就能直接生成2分钟、1分钟等不同时间，动作一致、连贯、没有卡顿的高质量视频。视频中的物体运动姿态丰富，场景和物体随时间的演变更加自然流畅，没有突兀的断层或冻结情况出现。

人工智能视频模型文本生成
当移动数码站上主舞台，Baseus倍思早已手握pass卡

过去4年间，中国创业者的全球化探索不断深入，中国产品销往全世界的认知变化也从单纯的“出海”概念，到建立渠道、产品、品牌、供应链的全球联动式出海，即创立有中国底色的全球化品牌。全球化移动数码品牌的塑造将会是出海浪潮中最鲜明的机会。在漫长旅途中，挑战是成长的源泉，成就与希望亦是。

全球化品牌移动数码消费电子
全面对标GPT-4 Turbo！商汤发布日日新5.0大模型

商汤科技在中国北京举行新品发布会，正式发布人工智能大模型日日新5.0”。日日新5.0大模型采用了先进的MOE混合专家架构，这一架构的引入，使得模型在处理复杂任务时能够表现出更高的效率和准确性。这一功能在智能客服、智能写作、智能设计等领域具有广泛的应用前景。
OceanBase 4.3版本推出列式存储引擎，进一步加强TP/AP一体化

OceanBase在其“关键业务负载”的一体化战略上再迈一步。4月20日在第二届OceanBase开发者大会上，OceanBase发布4.3版本，推出全新列式存储引擎，打造PB级实时分析数据库，可实现秒级实时分析，进一步加强TP/AP一体化。在OceanBase的开源社区，目前已有118位开发者开通博客，累计有1000多篇技术文章分享，核心仓库拥有300多位外部贡献者，共建代码量超5万行。

OceanBase 一体化战略列式存储引擎

AI Experts Top:AI Experts是一家专注于数字营销的AI顾问机构，致力于将人工智能技术应用于业务中，帮助企业提高效率和推动增长。

AI Experts是一家专注于数字营销的AI顾问机构，通过AI驱动的工具，帮助企业高效地生产高质量的内容，并通过数据分析提供有价值的见解，引导业务策略。AI Experts的主要优点包括节省时间和资源、提高内容质量、提供数据驱动的决策支持等。产品背景信息：AI Experts是由真人运营的AI机构，致力于帮助企业将人工智能技术应用于业务中。

AI 数字营销内容生产

Pongo:是一个语义过滤器，使用1行代码可以将RAG工作流中的LLM幻觉减少80%。

Pongo的语义过滤器可以通过一行代码将RAG工作流中的LLM幻觉减少80%。它利用多种先进的语义相似性模型和专有的排名算法，确保您始终获得正确的信息。Pongo可以与现有的流程集成，并提供快速的响应时间和零数据保留。

语义过滤器 RAG工作流语义相似性

Video To Tweet:将YouTube视频转换为推特/博客内容

Video To Tweet是一个将YouTube视频转换为推特和博客内容的工具。它能够将视频转换成有吸引力的推特和详细的博客文章，帮助您轻松提升在线存在感。通过尝试使用我们的工具，优化您的内容策略，扩大触达更广泛的受众。

社交媒体内容创作数字营销

TextToVideo.Bot:将文本转化为令人惊叹的视频。

TextToVideo是一个AI驱动的工具，可以将文本转化为令人惊叹的视频。它可以帮助用户快速创建YouTube、Instagram和TikTok等平台上的内容，无需等待或支付过高的费用。它提供快速、经济实惠的视频制作解决方案，帮助用户讲述故事，提升品牌影响力。

视频创作工具 AI

Email Generator AI Tool:Email Generator AI工具是一款帮助您高效撰写电子邮件的人工智能工具。

Email Generator AI工具可以帮助您快速、高效地生成电子邮件内容，节省您的时间和精力。

生产力工具电子邮件

MentorAI:通过，你可以向马库斯·奥勒留提问和描述生活中的问题和情况，他将提供个人指导和斯多葛哲学的建议作为回应。

MentorAI允许您提问并描述生活中的问题和情况，马库斯·奥勒留将以个人指导和斯多葛哲学的建议作为回应。它提供了与一位哲学家国王的互动体验，帮助您在生活中面对挑战时获得智慧和指导。

智慧指导哲学

TravAI:是一款AI驱动的旅行培训产品，提供交互式AI培训、模拟、评估和智能助手，为旅行行业人员提供最新的技能和知识。

TravAI是一款旅行行业的AI驱动培训产品，通过注入AI技术，为培训注入活力。它能创建引人入胜、交互式的培训课程，进行逼真的角色扮演模拟，并设计能够真正起作用的测验。同时，TravAI利用您的数据为旅行团队量身定制个性化学习体验，让培训不再是通用的、一刀切的。它是培训旅行业专业人员的更智能、更快速的方式。

旅行培训 AI

Nextminds:是一家提供在线辅导服务的平台，为所有科目和学术水平的学生提供个性化辅导。

Nextminds是一个提供在线辅导服务的平台，通过与经验丰富的导师在线互动，为学生提供个性化的学习经验。平台提供ICSE、CBSE和州委员会等多种教育体系的辅导。Nextminds的主要优点是学生可以在舒适的家中与专业的导师进行一对一的在线学习，为学生提供高质量的辅导服务。

在线辅导学习个性化

Pedagogue.io:每天花费10分钟，提升您的AI技能。

Pedagogue是一款AI技能培训平台，旨在帮助个人和企业提升AI技能。通过该平台，用户可以学习AI工具、技术和策略，并获得40%的生产力提升。Pedagogue的优势在于更新及时的内容库、个性化的技能培养、有趣的学习方式以及具有商业价值的数据驱动洞察。

AI 技能培训教育

LexiGym:你的语言学习伴侣。🚀 # #HinkouLabs

LexiGym是一款语言学习应用，帮助用户提升语言技能。它具有离线和多语言支持的创新功能，是最强大的语言学习伴侣。用户可以根据自己的预算选择免费使用或付费订阅，灵活选择学习方式。LexiGym还提供易于创建字典和智能学习等功能，以及详细的训练统计数据。

语言学习词汇训练多语言

Alevels.ai:A Levels AI是一个利用人工智能提高A Levels学习成绩的工具。

A Levels AI利用人工智能技术，提供个性化的学习计划和辅导资源，帮助学生在A Levels考试中取得优异成绩。它通过分析学生的学习情况和弱点，为其提供针对性的学习建议和练习题。A Levels AI还提供实时答疑和学习进度跟踪功能，帮助学生更好地掌握知识。

教育考试辅导人工智能

MailReply:是一款AI助手，可生成专业且人性化的邮件回复，节省时间。

MailReply通过AI生成邮件回复，帮助用户节省时间。它可以在保持人类写作风格的同时，根据邮件内容生成上下文相关的回复。MailReply适用于Windows和macOS，并兼容多种邮件客户端。

邮件回复 AI助手工具

Notification harbor:高性能团队的电子邮件营销平台

Notification harbor是一个为电子邮件营销团队提供AI优化的电子邮件内容和自动化流程的平台。通过使用LLM技术，我们可以在短短5分钟内创建高性能的电子邮件营销内容，并且随着时间的推移，产品甚至可以自我优化。我们的平台简化了电子邮件营销活动的方式，确保每个活动都能精准地与您的目标受众建立联系。AI生成的电子邮件模板根据您提供的信息和要求选择最合适的模板。实时个性化电子邮件可以提高用户参与度和转化率，并根据每个用户实时定制内容。AI驱动的电子邮件营销使您的团队在创建电子邮件模板和文本方面节省了60％的时间。

亚马逊发布其有史以来的文本转语音模型 BASE TTS

今日大家都在搜的词：

热文

站长商机