首页 > 业界 > 关键词  > Deepgram最新资讯  > 正文

Deepgram推创新文本转语音模型Aura 支持实时文本转语音

2023-12-11 11:19 · 稿源:站长之家

要点:

  • Deepgram推出Aura,一款创新的文本转语音模型,提供比所有语音AI替代品更快速、更高效的人类般对话质量。

  • Aura致力于为实时语音AI代理提供真实的声音,包括及时的回应、在思考时使用自然的语音填充词汇(如“嗯”和“啊”),以及根据对话背景调节语调和情感。

  • Deepgram期望通过Aura成为实时、对话式语音AI代理的完整平台,为开发者提供构建未来高吞吐量、实时AI代理所需的基本构件。

站长之家(ChinaZ.com)12月11日 消息:深瞳公司推出了一款名为Aura的全新文本转语音模型,旨在满足实时语音AI代理的需求。随着大型语言模型(LLMs)的普及,语音交互成为访问LLMs及其解锁体验的主要手段。Aura的推出旨在解决当前语音AI供应商存在的速度、成本、可靠性和对话质量等方面的问题。相较于当前市场上的主流替代品,Aura在早期版本的盲评试中被评为更贴近人类声音,其开发计划也得到了提前扩展。

image.png

官方地址:https://deepgram.com/learn/aura-text-to-speech-api-waitlist

针对语音AI技术的不同应用,Deepgram区分了两个主要领域:高产出和高吞吐量。高产出关注打造完美声音,用于视频游戏或有声读物等项目,强调声音质量。而高吞吐量则着眼于实时对话,如快餐订餐、预约和了解汽车经销商的最新优惠等任务,注重对话流畅性和效率。Deepgram的目标是通过Aura在高吞吐量领域提供高效的文本转语音转换,以实现用户体验的平滑和可靠。

Aura的独特之处在于赋予AI代理更具人类特征的声音,包括及时的回应、在思考时使用自然的语音填充词汇,以及根据对话背景调整语调和情感。早期版本的Aura在盲评试中被评为比其他替代品更贴近人类声音,甚至在某些音频片段中超过了人类演讲者。

多年来,Deepgram一直致力于推动语音识别和口头语言理解技术的可能性。他们的团队不仅发展了能处理对话音频细微差异的新型转换器架构,还在处理各种语言、口音和方言的同时处理了口语中的不流畅和对话中的变化。通过有限约束构建模型,以优化其速度和效率。Deepgram还拥有内部数据标注和数据运营团队,通过构建定制工作流,记录、存储和传输大量音频,并持续扩充其高质量数据库,用于模型训练。

Aura被设计为速度、质量和效率的全能解决方案,旨在成为高质量选项中最快速、快速选项中最高质量的文本转语音模型。Deepgram强调,Aura的发布仅是一个开始,他们期待在与客户和合作伙伴的合作中继续完善和扩展该模型,共同定义AI代理的未来。计划于明年初正式发布,而开发者可以通过加入Aura的等待列表来获取早期体验并提供直接反馈。

举报

  • 相关推荐
  • 前DeepSeek研究员罗福莉已加入小米:全力奔赴AGI

    11月12日,“95后AI天才少女”罗福莉宣布加入小米MiMo大模型团队。她曾因“雷军千万年薪挖角”话题引发热议,拥有丰富AI研发经历,先后在幻方量化和DeepSeek参与大模型研发。罗福莉表示,将与团队致力于推动AI从语言迈向物理世界,全力构建通用人工智能。她的加入将为小米AI研究注入新活力。

  • DeepSeek崩了上热搜 页面显示“服务器繁忙”

    截至2025年11月3日,大量用户在微博话题#DeepSeek崩了#下集中反馈,DeepSeek平台出现服务异常状况,引发广泛关注。综合各方信息,此次故障呈现多方面表现,对用户使用造成显著影响。 众多用户表示遭遇服务全面中断问题,在尝试使用平台

  • ​你的品牌在豆包、DeepSeek里搜不到?这份GEO品牌监控攻略,3步把曝光拉满

    GEO指数是AI搜索时代的品牌可见度衡量指标,量化品牌被AI引用、推荐和对比的频率与深度。与传统SEO比拼搜索排名不同,GEO衡量的是品牌在AI回答中的提及率和好感度。数据显示,高GEO指数品牌在AI搜索中的转化率是传统SEO的3.4倍。文章通过案例说明,企业可通过监控竞品差距、补充缺失内容关键词、优化AI提示词等策略提升GEO指数。建议立即使用AIBase平台免费体验GEO监控,把握AI搜索新机遇。

  • 海量音色AI赋能,逗哥配音重塑语音创作新体验

    逗哥配音作为领先AI配音平台,以“海量音色+AI赋能”为核心,拥有上千款声音类型,覆盖多语言及商业场景。通过自研大模型韵律技术,实现情感饱满的语音生成,支持影音解说、小说推文等多种需求。平台内置场景化音色模板,新手也能快速制作专业配音,免费功能已满足日常短视频创作。其AI分角功能优化多人角色管理,提升对话内容制作效率。逗哥配音正重塑语音创作边界,成为短视频解说领域首选工具。

  • 品牌在deepseek、豆包里排第几?免费GEO排名查询工具帮你一键看清

    随着AI搜索普及,传统SEO正被GEO(生成式引擎优化)取代。GEO核心是提升品牌在AI生成答案中的可见度,而非获取点击流量。数据显示超60%用户已使用AI搜索,若品牌未被AI提及将失去流量入口。文章推荐免费工具AIBase,支持多平台一键检测品牌在主流AI助手的曝光排名、竞品对比及可视化报告,并提供内容权威性、语义化表达等GEO优化策略,帮助品牌在AI时代建立竞争优势。

  • 2025视觉中国&500px视觉盛典青岛站开启招募!

    本文介绍了多个科技品牌在展会现场推出的互动体验和福利活动:至誉科技提供免费笔记本屏幕校色服务,关注小红书可领取贴纸等礼品;东芝通过问卷赠送手机挂绳;索尼展出新品相机镜头;适马打卡送周边;永诺展示神秘新品镜头;雷克沙关注社媒可领专属礼物;富图宝有识脚架互动游戏;神牛到场即送周边;艺卓体验专业显示器;唯卓仕可参与新品抽奖;斯丹德提供免费抽奖与补光灯体验;明基首次展出未发售的校色显示器。各品牌均通过现场互动吸引用户参与。

  • 百度智能云这项开源,让 DeepSeek-V3.2 推理服务吞吐提升 2 倍

    10月28日,百度智能云联合SGLang社区开源针对DeepSeek-V3.2优化的多token预测(MTP)技术代码。该技术通过批量生成和集中验证机制,使模型解码吞吐量提升超2倍,突破传统自回归解码的序列化瓶颈。此次开源的MTP方案已完成与DeepSeek-V3.2稀疏注意力架构的深度适配,并经过百度内部业务验证,开发者可"开箱即用"获得稳定可靠的推理加速能力。

  • 中国移动北斗卫星短信业务升级:支持文字+图片+语音

    中国移动宣布北斗短信息服务完成重大升级,新增图片、语音等富媒体功能,文本传输能力显著提升,单条消息可发送40个汉字、接收达10个汉字。Redmi Note 15 Pro+卫星消息版率先支持升级,其他品牌终端也将陆续开启。此次升级在无地面网络信号时仍能通过多种形式传递信息,为户外探险、应急救援等场景提供坚实通信保障,标志着北斗通信正式步入“视听兼具”新时代。

  • MiniMax让AI语音有了新基建

    熟悉MiniMax的人都了解这家公司的调性——不鸣则已,一鸣惊人。 要么选择低调,要么发动技术连招,其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。 十月的最后一周,再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化,基础文本模型M1升级至M2,“专为Agent和代码而生”;视频模型升级至Hailuo2.3,Hailuo Video Agent迭代为“全模态全�

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

今日大家都在搜的词: