首页 > 业界 > 关键词  > Voice最新资讯  > 正文

Voice Agent 开源框架 TEN,让你的 AI Agent 能听能说!

2025-03-26 16:57 · 稿源:通往AIGC之路

搭建 Voice Agent 就像是把大象装进冰箱,看上去只有三步很简单:

1)选择 LLM/STT/TTS 大模型

2)接入 WebRTC 或 WebSockets 进行实时传输

3)调整参数封装

但在实际使用过程中,却困难重重:

“😫回声太大、噪音太多”、“人声太杂听不清👂”

人工智能如智障,说话都不能打断🤐”

“延迟太高反应慢🐢”、“又有新模型了又要重新接😞”

“三段式看着简单实现的工程太难💻”

“多模态数据间的实时传输太麻烦了、搞不定啊 🤯”

“CPU消耗怎么这么高?!!😢

于是,对话式 Voice Agent 开源框架——TEN Framework应运而生!

TEN 解决了 Voice Agent 搭建过程中与多模态数据传输复杂、延迟高的问题,并且将LLM、STT、TTS 等模型进行模块化、自由调用,为开发者减少实现时的工程问题,更加聚焦于场景与业务内容,快速完成产品的落地与验证,并能够真正用于实际生产 💪

🤔 那么,TEN 是什么?

TEN 是一个实时对话式 Voice Agent 引擎,可以帮助开发者快速搭建可音视频交互的 AI Agent。

目前已经支持包括Deepseek、OpenAI、Gemini等在内的全球各大主流 STT、LLM、TTS 厂商。

同时 TEN 可以支持接入DifyCoze,只需配置 bot ID/API,就能让你的 bot 开口说话。

图片

(TEN 已经支持的 extension)

🤩 TEN 有哪些优势 ?

1、支持多模态传输:可满足语音、文本和图像的输入与输出

    • 支持语音、文本、图像等数据传输,充分发挥多模态优势

    • 同时支持级联模式(STT-LLM-TTS)端到端模式(End to End)打造音视频交互

2、低延迟、可打断:内置优化后的实时通信能力,提供低延时、可打断的交互体验

    • 内置 RTC,解决语音交互时的延迟问题,基于TEN Framework 搭建的 Agent,优化最佳情况下延迟仅650ms

    • 自带 VAD,在与 AI 语音交流过程中可以随时打断、还原真实对话

3、插件丰富、灵活编排:支持接入全球主流 STT、LLM和 TTS,快速使用

    • 已支持全球主流的 STT、LLM、TTS 等插件,配置 key 即可

    • 及时跟进最新技术,24h 内完成接入 OpenAI Realtime API、Gemini2.0

4、多语言、跨平台:支持主流语言,Agent 可跨平台无缝衔接

    • 支持 C++/Go/Python/Node.JS 等各类编程语言(JavaScript 即将支持)

    • 支持Agent 在 Windows/Mac/Linux/移动端等的跨平台使用

🤖用 TEN 可以做出什么?

1、TEN + SIP:AI 外呼中心

AI 外呼中心,如:企业客服/外呼中心/专业咨询......

让客户打电话给你定制的 AI Agent 专家!

Demo 里演示的是心理咨询专家,可以看到 Agent 在听到“我”说心情不好时语气也低沉了下来,语音在这种场景下比文字更合适。

2、TEN + 硬件:智能玩具

故事机/智能音箱/AI 玩具/智能家居......

目前已支持 ESP32,你可以直接与 ESP32进行低延迟、可打断的对话,让他给你讲个故事。

3、TEN + 数字人:虚拟陪伴

TEN目前支持 Trulience avatars 虚拟形象,让你的 AI 导购/虚拟宠物/AI 游戏陪玩......

你可以让小狗与你切换方言、进行语音交流;

也可以和 AI 一起下棋,动嘴就能操控,解放双手。

4、TEN + Computer Use:语音操控电脑

自然语言交互界面(LUI)会越来越进入我们的生活。

用语音开启浏览器、电脑 App、记 memo......你也可以用 TEN 打造自己的“贾维斯”。

图片

5、TEN + 游戏:AI游戏陪玩

语音剧本杀之东方快车谋杀案。

跟 NPC 聊聊案件发生时 TA 们都在做什么,沉浸式体验,一个人也可以玩剧本杀。

图片

6、TEN + Gemini2.0:看得见的个人助理

在使用 Gemini2.0模型时,TEN 不仅能听见,还能看见!

当通过摄像头/屏幕共享与 TEN 分享图片时,他不仅可以精准地认出小猫咪的颜色,还能辨别出具体品种!🐱

7、TEN + 能说能画的故事机

TEN 提供了 Storyteller 作为 usecase,内置文生图模型插件,可引导用户去共同完成一个故事,同时生成精彩的配套图片

📒如何使用 TEN 呢?

如果您是新手,希望能够 step by step 的学习如果使用 TEN Agent,欢迎参考油管博主 Developer Digest 的教程👇

如果您已经基本了解 TEN 了,也欢迎尝试最新上线的虚拟人 TEN + Trulience👇

最后,如果你对 TEN 感兴趣,欢迎star项目,支持并跟进项目最新动态!

😺 快速体验链接:https://agent.theten.ai/

💻 本地部署 Github 链接:

https://github.com/TEN-framework/TEN-Agent

举报

  • 相关推荐
  • Agent真的卷疯了,AI办公Agent也来了。

    ​我一直说,每个行业,都一定会有专门优化的垂直领域的Agent。 你看,通用Agent的王座上有Manus,研究类的有DeepResearch,旅游有飞猪问一问,设计类有Lovart。 那现在,办公领域的Agent也来了。 专为办公打造。 这玩意就是昆仑万维的Skywork Super Agents。

  • 如何用AI Agent让企业效率翻倍?

    2025年5月,红杉资本AI峰会在旧金山落下帷幕。这场汇聚150位全球顶尖AI公司创始人的大会达成重要共识:下一轮AI竞争的核心不再是工具本身,而是为用户创造的实际收益。在此背景下,Agent的重要性被前所未有的推至所有人的视野前沿。 硅谷大厂开启了第一波加速,微软CEO纳德拉在主题演讲中宣布:“我们已经进入了AI Agent时代,正在见证AI系统如何以全新方式帮助我们解决问�

  • 发布AI Agent开发平台,做强AI生态… 网易数智接下来这么干

    AI时代正从AIGC转向AI Agent发展。微软CEO纳德拉预测AI Agent将成为新应用,Gartner预计到2028年超1/3企业软件将集成AI Agent功能。网易数智发布CoreAgent智能体开发平台及多款行业智能体,助力企业快速落地AI应用。文章指出当前AI Agent面临技术门槛高、场景适配难等挑战,网易提出"技术共生、市场共拓、利润共享"的生态协同理念,强调AI需要与行业know-how结合才能创造真实价值。网易数智宣布品牌升级,从"科技蓝"变为"网易红",展现拥抱AI时代的决心。

  • IBM高管详解如何加速企业AI应用:Agent是路径,不是噱头

    IBM在2025 Think大会上提出,企业AI竞争已从实验阶段转向实际应用阶段,关键在于定制化AI解决方案和可量化的业务成果。IBM强调企业级AI Agent需具备"动手能力",能嵌入业务流程、完成任务并监控维护,而非仅是对话助手。其watsonx平台构建了模型、数据、任务执行的完整技术栈,并通过三层架构(交互层、任务分解层、系统连接层)实现闭环运行。IBM还推出"AgentOps"体系,将智能体模块化、服务化,建立能力目录和监控机制,解决企业部署AI Agent时的系统对接、价值评估和管理难题。实践案例显示,制造业设备巡检Agent可节省70%人力成本。IBM认为AI Agent是企业数字化能力的延伸,需与业务流程深度融合,而非追赶技术潮流。

  • 容联云语音坐席代理:懂业务的Agent,让金融对话更有温度与效率

    容联云推出"大型语音坐席代理"解决方案,通过AI技术革新传统金融客服交互模式。该方案具备五大核心能力:1)智能理解客户意图,准确率达95%;2)强降噪处理嘈杂环境通话;3)拟人化语音交互,支持情绪适配;4)自动生成通话总结与商机洞察;5)人机无缝协作,支持多任务监控。应用场景覆盖客户服务(7*24小时响应)、精准营销(降低30%挂断率)和人性化催收(

  • 火山引擎Data Agent体验中心正式上线!企业级AI数据专家触手可及

    火山引擎数智平台开放企业级数据智能体Data Agent体验中心,用户可零门槛体验"企业数字专家"在数据垂直领域的深度能力。该产品定位为"企业第一位AI数据专家",已上线股票分析、经营复盘、营销策略等6大场景应用。通过"数据+知识"融合、人机协同等核心价值,突破传统分析工具边界,实现从描述性分析到行动建议的跨越。作为L3级智能体,它能将企业内外部信息转化为可量化数字资产,显著降低数据使用门槛,提升决策效率。Gartner预测到2028年至少15%的日常决策将由AI自主完成。火山引擎此举标志着企业数据应用正式进入"动态智能体"时代。

  • 上海飞络|AI Agent驱动企业MSS安全运营变革 ---构建高效低成本防护体系

    在数字化转型浪潮中,企业面临指数级增长的网络威胁。上海飞络信息科技的Synergy AI产品通过AI+Agent技术重塑安全防护格局:1)统一告警分析:整合多元设备告警,精准识别APT攻击等高级威胁;2)智能设备调度:自动协调防火墙、WAF等设备应对DDoS攻击;3)实时威胁阻断:秒级隔离受感染终端,防止数据泄露。该方案使金融企业平均响应时间大幅缩短,显著降低数据泄露风险。未来将持续优化预测能力,实现主动防御,为企业构建高效智能的托管安全服务体系。

  • AI日报:Manus面向所有人开放注册;全球首款设计Agent Lovart内测;教育部划清AI使用边界

    【AI日报】今日AI领域重要动态:1)国产AI平台Manus开放注册,无需邀请码即可使用;2)Lovart推出全球首款设计Agent,支持全链路自动化设计;3)教育部发布AI教育指南,禁止学生直接复制AI生成内容;4)昆仑万维开源Matrix-Game大模型,专注交互式世界生成;5)Google Gemma模型下载量突破1.5亿次;6)OpenAI新增一键导出PDF功能;7)字节跳动推出图像编辑框架DreamO;8)Kimi智能助手界面升级;9)阿里MNN更新支持通义千问2.5;10)ChatGPT新增SharePoint连接器;11)OpenVision视觉编码器发布;12)福布斯中国AI企业TOP50榜单发布;13)腾讯"元宝"工具上线,基于混元T1-Vision模型实现图片深度理解。

  • Gemini接管搜索、全家桶秒变通用Agent ,以及Google Glass is so back!

    谁也没想到,Google I/O现场的最高潮来自“复活”的Google Glass有些翻车了的实时demo。2025 年 5 月 20 日,Google的年度开发者大会Google I/O在加州山景城举办。 与去年在举办之前一天被OpenAI“狙击”不同,今年的Google I/O,剑拔弩张的氛围让位给了派对的氛围,在ChatGPT带来的狼狈之后,Google已经回到了自己的节奏。 是的,它回到了饱和式发布的节奏。当天Google一口气发布了至少十�

  • AI日报:DeepSeek开源新版R1-0528;字节发布图像Agent小云雀AI;可灵2.1重磅上线

    本期AI日报聚焦多项AI领域突破:1)DeepSeek发布R1-0528模型,支持128K上下文且性能媲美GPT-4;2)字节推出"小云雀AI"图像创作工具;3)可画2.1版本价格降65%性能提升;4)Opera发布全球首款AI浏览器Neon;5)Meta推出多模态空间理解模型;6)北大团队研发ZeroSearch框架降低大模型训练成本88%;7)字节推出AI视频剪辑应用"剪小映";8)MotionPro实现40ms/帧精准视频控制;9)xAI与Telegram达成3亿美元合作部署Grok聊天机器人;10)OpenAI重组架构为IPO铺路;11)像素蛋糕"方糖大模型"获国内首个影像行业备案;12)Paper2Poster实现论文自动转海报;13)Resemble AI开源TTS模型性能比肩ElevenLabs;14)蚂蚁集团开源对标GPT-4o的多模态模型Ming-lite-omni。