首页 > 业界 > 关键词  > Deepgram最新资讯  > 正文

Deepgram推创新文本转语音模型Aura 支持实时文本转语音

2023-12-11 11:19 · 稿源:站长之家

要点:

  • Deepgram推出Aura,一款创新的文本转语音模型,提供比所有语音AI替代品更快速、更高效的人类般对话质量。

  • Aura致力于为实时语音AI代理提供真实的声音,包括及时的回应、在思考时使用自然的语音填充词汇(如“嗯”和“啊”),以及根据对话背景调节语调和情感。

  • Deepgram期望通过Aura成为实时、对话式语音AI代理的完整平台,为开发者提供构建未来高吞吐量、实时AI代理所需的基本构件。

站长之家(ChinaZ.com)12月11日 消息:深瞳公司推出了一款名为Aura的全新文本转语音模型,旨在满足实时语音AI代理的需求。随着大型语言模型(LLMs)的普及,语音交互成为访问LLMs及其解锁体验的主要手段。Aura的推出旨在解决当前语音AI供应商存在的速度、成本、可靠性和对话质量等方面的问题。相较于当前市场上的主流替代品,Aura在早期版本的盲评试中被评为更贴近人类声音,其开发计划也得到了提前扩展。

image.png

官方地址:https://deepgram.com/learn/aura-text-to-speech-api-waitlist

针对语音AI技术的不同应用,Deepgram区分了两个主要领域:高产出和高吞吐量。高产出关注打造完美声音,用于视频游戏或有声读物等项目,强调声音质量。而高吞吐量则着眼于实时对话,如快餐订餐、预约和了解汽车经销商的最新优惠等任务,注重对话流畅性和效率。Deepgram的目标是通过Aura在高吞吐量领域提供高效的文本转语音转换,以实现用户体验的平滑和可靠。

Aura的独特之处在于赋予AI代理更具人类特征的声音,包括及时的回应、在思考时使用自然的语音填充词汇,以及根据对话背景调整语调和情感。早期版本的Aura在盲评试中被评为比其他替代品更贴近人类声音,甚至在某些音频片段中超过了人类演讲者。

多年来,Deepgram一直致力于推动语音识别和口头语言理解技术的可能性。他们的团队不仅发展了能处理对话音频细微差异的新型转换器架构,还在处理各种语言、口音和方言的同时处理了口语中的不流畅和对话中的变化。通过有限约束构建模型,以优化其速度和效率。Deepgram还拥有内部数据标注和数据运营团队,通过构建定制工作流,记录、存储和传输大量音频,并持续扩充其高质量数据库,用于模型训练。

Aura被设计为速度、质量和效率的全能解决方案,旨在成为高质量选项中最快速、快速选项中最高质量的文本转语音模型。Deepgram强调,Aura的发布仅是一个开始,他们期待在与客户和合作伙伴的合作中继续完善和扩展该模型,共同定义AI代理的未来。计划于明年初正式发布,而开发者可以通过加入Aura的等待列表来获取早期体验并提供直接反馈。

举报

  • 相关推荐
  • DeepSeek更新至V3.1 Terminus版本:两大升级

    9月22日,深度求索宣布DeepSeek V3.1已更新至Terminus版本,官方App、网页端、小程序与API模型同步升级。本次更新在保持模型原有能力基础上,针对用户反馈进行改进:优化语言一致性,缓解中英文混杂、异常字符等问题;提升Code Agent与Search Agent表现。官方表示新版本输出效果更稳定,各领域评测表现优异。开源版本已在Hugging Face和ModelScope平台发布。

  • 破解 AI “安全与性能” 难题!DeepSeek-R1-Safe 基础大模型在华为全联接大会2025正式发布

    9月18日,华为全联接大会2025在上海开幕。会上,华为与浙江大学联合发布国内首个基于昇腾千卡算力平台的DeepSeek-R1-Safe基础大模型。该模型在安全防护能力上表现突出,对有害言论、敏感内容等14个维度的防御成功率近100%,同时通用能力测试性能损耗控制在1%以内。双方表示将继续深化合作,推动AI安全技术与产业生态协同发展,为我国人工智能高质量发展提供支撑。

  • AI日报:阿里云开源通义DeepResearch;夸克推医师考试大模型

    本期AI日报聚焦多项前沿动态:阿里云开源轻量级AI代理DeepResearch,性能媲美OpenAI;夸克推出国内首个全阶段医师考试大模型测试集;微软Copilot将上线类ChatGPT记忆管理功能;迪士尼等巨头起诉MiniMax侵犯版权;OpenAI提升ChatGPT搜索准确性;Notion推出个性化AI助手;谷歌发布更小巧高效的时间序列预测模型TimesFM-2.5;Figma推出AI设计功能简化创作流程。整体展现AI技术在开源、医疗、�

  • Nano Banana更像是AI图像领域的DeepSeek

    这是《窄播Weekly》的第66期,本期我们关注的商业动态是:Google最新的AI图像生成模型Nano Banana,可能会给AI图像领域带来一场应用大爆炸。 去年这个时候,我想把照片中人物手里拿的玩具火车换成玩具飞机,还需要给玩具火车做出精细标记,找到干净的玩具飞机图片,告诉AI将其替换成另一张图里的飞机。我花费一个小时,多番尝试下来,飞机会变形,人物的手会消失,最后的�

  • 百度文心大模型X1.1正式发布:超越DeepSeek R1、打平GPT-5

    今天,在WAVE SUMMIT深度学习开发者大会2025上,百度文心大模型X1.1正式发布,在事实性、指令遵循、智能体等能力上均提升显著。 百度王海峰介绍,文心大模型X1是基于文心大模型4.5训练而来的深度思考模型,升级后的X1.1主要采用了迭代式混合强化学习训练框架。 一方面通过混合强化学习,同时提升通用任务和智能体任务的效果;另一方面通过自蒸馏数据的迭代式生产及训练

  • 即构发布云端实时语音识别服务

    ZEGO云端实时语音识别服务针对直播、语聊、在线课堂和会议等场景,提供低延迟(端到端600ms)、高准确率(提升40%)、低成本(节省50%以上)的解决方案。支持30多种语言及方言,适配多厂商接入,具备降噪和回声消除能力。核心应用包括实时字幕和AI观众互动,显著提升用户体验和业务效率,助力企业全球化布局。

  • 华为FreeClip 2耳夹耳机发布:搭载自研NPU AI处理器 1299元

    华为于9月24日正式发布全新FreeClip 2耳夹式耳机,售价1299元,10月14日开启预售,10月20日正式上市。耳机主打独特设计、卓越性能与丰富功能,提供丹宁蓝、摩登黑、羽纱白三色可选。充电盒采用玲珑方盒设计,体积缩小17%,耳机本体重量减轻9%至5.1克,佩戴更轻盈舒适。搭载华为自研第三代音频芯片,首款集成NPU+AI处理器,算力提升10倍,支持超澎湃双擎单元,音质与低频动力均提升100%。具备IP57级防尘抗水抗汗能力,支持左右耳自适应技术,无需区分左右耳即可佩戴。AI功能方面,支持鸿蒙AI耳边助手,可实现随唤随应、连续对话等便捷操作,并具备实时听译功能,支持中文与20种语言互译。续航方面,单耳续航达9小时,整机续航长达38小时,满足长时间使用需求。此外,耳机还支持离线查找与楼层定位功能,充电盒新增近距离星闪精准查找,50米内轻松找回耳机。

  • 字节跳动发布 Seedream 4.0 图像创作模型,豆包App可免费体验

    字节跳动Seed团队推出豆包图像创作模型Seedream4.0,支持文生图、图像编辑及多图参考等功能,在专业评测中达到业界领先水平。该模型已上线豆包App、即梦AI等平台供用户免费体验,并通过火山引擎开放给企业客户。Seedream4.0具备多模态创意能力,可生成4K分辨率商用图像,适用于教育、电商、广告设计等场景。团队表示将持续探索实时交互生成体验,深度融合多模态推理与世界知识。

  • 霸榜双雄齐步走!Century Games专列直达东京电玩展

    世纪华通旗下Century Games为参加2025东京电玩展(TGS2025)量身定制了游戏主题“专列”,覆盖地铁广告、户外展示、裸眼3D大屏等多元传播渠道。9月25日至28日展会期间,公司包下途经展馆的列车广告位,车厢内贴满《Whiteout Survival》与《Kingshot》海报,串联涩谷、浅草寺等人流密集站点。展馆外设置巨型玻璃钢装置,以两款游戏标志性场景为背景,结合本地化舞台节目与互动体验,强化品牌影响力。此次营销不仅为展会预热,更彰显公司深耕日本市场、以“场景化+本地化”策略提升用户粘性的决心。

  • 小米开源首个原生端到端语音大模型 支持音频重建任务和音频转文本任务

    小米发布首款开源端到端语音大模型Xiaomi-MiMo-Audio,拥有12亿参数,在智能性、情感表达和交互适配方面接近人类水平。该模型最大技术突破在于少样本学习能力,通过创新预训练架构和超一亿小时训练数据,成功突破传统语音模型依赖大规模标注数据的技术瓶颈。基于Transformer架构,支持音频重建和音频转文本等多任务处理。小米已在Huggingface平台发布预训练和指令微调版本,并在Github开源Tokenizer模型,为研究者和开发者提供完整工具链。

今日大家都在搜的词: