语音生成的「智能涌现」：10万小时数据训练，亚马逊祭出10亿参数BASE TTS

2024-02-15 16:05 · 稿源：机器之心公众号

伴随着生成式深度学习模型的飞速发展，自然语言处理（NLP）和计算机视觉(CV)已经经历了根本性的转变，从有监督训练的专门模型，转变为只需有限的明确指令就能完成各种任务的通用模型。在语音处理和文本到语音（TTS）领域，这样的转变也正在发生，模型能够利用数千小时的数据，使合

......

本文由站长之家合作伙伴自媒体作者“机器之心公众号”授权发布于站长之家平台，本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间，为了保证文章信息的及时性，内容观点的准确性，平台将不提供完全的内容展现，本页面内容仅为平台搜索索引使用。需阅读完整内容的用户，请查看原文，获取内容详情。

即将跳转到外部网站

安全性未知，是否继续

继续前往

（举报）

相关推荐

关键词：

语音生成

客服回应iPhone通话语音隔离：是“语音突显”功能

今日，一则关于iPhone通话降噪的讨论登上微博热搜，多位网友实测称开启特定功能后，即便身处嘈杂环境通话，对方也几乎听不到背景噪音。对此，苹果官方客服回应称，该功能实际为iOS15及以上系统内置的“语音突显”模式，需用户手动开启后方可生效。

iPhone通话降噪语音突显模式 iOS15功能
豆包语音合成模型 2.0 重磅升级，语义理解 + 情感演绎双突破

10月16日，火山引擎升级豆包语音合成模型2.0与声音复刻模型2.0。新模型基于大语言模型架构，具备深度语义理解能力，实现从文本朗读到情感表达的进化。对话式合成支持多轮交互，声音复刻仅需5秒即可还原音色。针对教育场景优化，复杂公式符号朗读准确率达90%，覆盖数学、化学等全学科。目前模型已在火山引擎语音平台上线，为OPPO、Keep等客户提供多场景语音服务。

语音合成声音复刻语义理解
Sora 2生成已故名人视频引亲属不满 OpenAI回应：重视反馈将迅速纠正失误

OpenAI 近日推出的 Sora 2 模型引发广泛关注，其默认禁止生成在世公众人物视频，用户纷纷尝试生成各类创意内容。然而，创作者与观众很快发现这一限制存在明显漏洞该模型允许生成已故公众人物的影像，从而在伦理层面引发争议。社交媒体上已涌现大量AI复活”名人的案例，例如李小龙主持DJ现场、迈克尔杰克逊表演单口喜剧等。尽管OpenAI在每段生成视频上添加动态水印，�

OpenAI Sora 2模型
全球首个！OpenAI将推“AI版抖音”：禁止上传实拍内容视频100%由AI生成

国庆假期前夕，OpenAI发布了Sora 2，一款旗舰视频和音频生成模型。据介绍，Sora 2可以完成以前的视频生成模型难以完成的事情，比如运动员的奥林匹克体动作、桨板上的后空翻，准确模拟浮力和刚度的动态等等，并擅长现实主义、电影和动漫风格。一则来自《连线》杂志的重磅爆料更是指出，OpenAI的下一步棋，并非简单升级一个模型，而是要亲自下场，推出一个独立的AI影�

OpenAI Sora 2
荐AI日报：谷歌发布Veo 3.1；通义千问推Qwen Chat Memory功能；Sora2免费用户可生成15秒视频

本期AI日报聚焦多项技术更新：谷歌Veo 3.1视频模型新增音频生成与精细化编辑功能；通义千问推出记忆功能提升对话连贯性；Sora2免费用户可生成15秒视频，Pro版支持25秒；百度文心助手升级8种创作模式；谷歌Flow工具增强视频光影编辑与音频合成能力；Anthropic发布高性价比Claude Haiku 4.5；北京查处首例AI虚假广告案，涉伪造主持人带货；阿里推出响应仅200毫秒的编程工具Qoder CLI。

AI 视频生成谷歌
2025年双11红包领取口令怎么生成？词令联盟如何申请创建淘宝京东天猫双11红包推广口令赚钱？

词令联盟是基于词令推广工具生成推广口令的平台。用户通过注册成为推广者后，可在平台创建淘宝、京东等电商平台的双11红包专属推广口令。他人使用该口令领取红包并下单后，推广者即可获得佣金。2025年双11活动期间，淘宝红包领取时间为10月15日至11月14日，京东为10月9日至11月11日。这种模式让推广者通过分享红包口令实现收益。

文章搜索核心标签词令联盟
微博CEO称iOS 26微信语音没声音网友同样中招以为手机坏了

微博CEO王高飞反映，iOS 26 Beta 1更新后微信语音通话首次接通无声音，需挂断重拨。多名网友反馈相同问题，甚至怀疑手机故障。微博智搜称，这是Beta系统的兼容性缺陷，已提供临时解决方案。iOS 26.1 Beta新增Apple Intelligence多语言支持及AirPods实时翻译功能，电话应用键盘采用全新液态玻璃设计。

iOS26b1 微信语音通话兼容性缺陷
荐AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 Ling-1T；Lovart可免费玩Sora2

本期AI日报聚焦多项技术突破：Veo 3.1视频生成模型实现角色一致性与多场景叙事升级；蚂蚁发布万亿参数Ling-1T语言模型，推理能力领跑行业；xAI推出电影级视频生成模型Imagine v0.9；软银斥资53.75亿美元收购ABB机器人业务布局物理AI；Vercel v0新增图像编辑功能简化设计流程；OpenAI Sora2首日安装量飙升至应用商店第三，同时引发深度伪造伦理担忧；Lovart平台限时免费开放Sora2无水印视频生成；ChatGPT推出应用生态，正式升级为多功能服务平台。

生成式视频 Veo 3.1
AI日报：微软发布首款自研图像生成模型 MAI-Image-1；百度世界大会时间公布；AI大牛开源nanochat教学工具

微软发布首款自研图像生成模型MAI-Image-1，跻身LMArena前十，注重实用性与光影效果；百度世界2025大会将聚焦大模型与AI全球化战略；Meta新技术使RAG推理速度提升30倍；开源项目nanochat实现低成本构建聊天AI；谷歌NotebookLM新增动漫视频生成功能；中国农大发布神农大模型3.0助力智慧农业；腾讯启动"青云奖学金"培养AI人才；苹果FS-DFM模型长文本生成效率提升128倍；谷歌Lens整合AI图像编辑功能；港大与美团提出CodePlot-CoT方法，通过代码绘图解决数学难题，性能提升21%。

AI 图像生成微软
Gotalk.ai语音生成软件有哪些功能 AI语音工具推荐

Gotalk.ai，不是单纯的配音工具是你的私人AI配音魔法师，它利用尖端人工智能算法和深度学习技术，将文字幻化成自然流畅的语音，助你完成各种配音需求。Gotalk.ai的体验下载入口在哪呢，这里我们来看Gotalk.ai的官方体验入口。快来解锁它的强大功能，让你的文字不再沉默，让你的声音响彻世界吧!以上就是Gotalk.ai的全部介绍了，感兴趣的小伙伴可以点击上方链接前往体验。

Gotalk AI语音

今日大家都在搜的词：

热文

3 天
7天

语音生成的「智能涌现」：10万小时数据训练，亚马逊祭出10亿参数BASE TTS

客服回应iPhone通话语音隔离：是“语音突显”功能

豆包语音合成模型 2.0 重磅升级，语义理解 + 情感演绎双突破

Sora 2生成已故名人视频引亲属不满 OpenAI回应：重视反馈将迅速纠正失误

全球首个！OpenAI将推“AI版抖音”：禁止上传实拍内容视频100%由AI生成

荐AI日报：谷歌发布Veo 3.1；通义千问推Qwen Chat Memory功能；Sora2免费用户可生成15秒视频

2025年双11红包领取口令怎么生成？词令联盟如何申请创建淘宝京东天猫双11红包推广口令赚钱？

微博CEO称iOS 26微信语音没声音网友同样中招以为手机坏了

荐AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 Ling-1T；Lovart可免费玩Sora2

AI日报：微软发布首款自研图像生成模型 MAI-Image-1；百度世界大会时间公布；AI大牛开源nanochat教学工具

Gotalk.ai语音生成软件有哪些功能 AI语音工具推荐

今日大家都在搜的词：

热文

微信回应人去世了朋友圈会消失吗：长时间不使用账号已不再回收

AI日报：阿里发布紧凑型Qwen3-VL模型；科大讯飞AI翻译耳机全球

小米推出短剧App围观短剧：主打无广告免费看

AI日报：谷歌发布Veo 3.1；通义千问推Qwen Chat Memory功能；S

REDMI K90 Pro Max外观公布：后置BOSE认证扬声器

卢伟冰官宣REDMI K90系列下周发布：不排斥和小米竞争

王腾首次回应下一步计划：称在考虑些创业项目

AI日报：谷歌Gemini 3.0 Pro小范围推送；爱诗科技完成1亿元B+轮

苹果华为OPPO将推出eSIM手机 OPPO Find X9系列已确认将支持

微信回应出朋友圈访客功能：可能会让用户产生焦虑重申不会推出

站长商机