首页 > 业界 > 关键词  > Voice最新资讯  > 正文

Voice Agent 开源框架 TEN,让你的 AI Agent 能听能说!

2025-03-26 16:57 · 稿源:通往AIGC之路

搭建 Voice Agent 就像是把大象装进冰箱,看上去只有三步很简单:

1)选择 LLM/STT/TTS 大模型

2)接入 WebRTC 或 WebSockets 进行实时传输

3)调整参数封装

但在实际使用过程中,却困难重重:

“😫回声太大、噪音太多”、“人声太杂听不清👂”

人工智能如智障,说话都不能打断🤐”

“延迟太高反应慢🐢”、“又有新模型了又要重新接😞”

“三段式看着简单实现的工程太难💻”

“多模态数据间的实时传输太麻烦了、搞不定啊 🤯”

“CPU消耗怎么这么高?!!😢

于是,对话式 Voice Agent 开源框架——TEN Framework应运而生!

TEN 解决了 Voice Agent 搭建过程中与多模态数据传输复杂、延迟高的问题,并且将LLM、STT、TTS 等模型进行模块化、自由调用,为开发者减少实现时的工程问题,更加聚焦于场景与业务内容,快速完成产品的落地与验证,并能够真正用于实际生产 💪

🤔 那么,TEN 是什么?

TEN 是一个实时对话式 Voice Agent 引擎,可以帮助开发者快速搭建可音视频交互的 AI Agent。

目前已经支持包括Deepseek、OpenAI、Gemini等在内的全球各大主流 STT、LLM、TTS 厂商。

同时 TEN 可以支持接入DifyCoze,只需配置 bot ID/API,就能让你的 bot 开口说话。

图片

(TEN 已经支持的 extension)

🤩 TEN 有哪些优势 ?

1、支持多模态传输:可满足语音、文本和图像的输入与输出

    • 支持语音、文本、图像等数据传输,充分发挥多模态优势

    • 同时支持级联模式(STT-LLM-TTS)端到端模式(End to End)打造音视频交互

2、低延迟、可打断:内置优化后的实时通信能力,提供低延时、可打断的交互体验

    • 内置 RTC,解决语音交互时的延迟问题,基于TEN Framework 搭建的 Agent,优化最佳情况下延迟仅650ms

    • 自带 VAD,在与 AI 语音交流过程中可以随时打断、还原真实对话

3、插件丰富、灵活编排:支持接入全球主流 STT、LLM和 TTS,快速使用

    • 已支持全球主流的 STT、LLM、TTS 等插件,配置 key 即可

    • 及时跟进最新技术,24h 内完成接入 OpenAI Realtime API、Gemini2.0

4、多语言、跨平台:支持主流语言,Agent 可跨平台无缝衔接

    • 支持 C++/Go/Python/Node.JS 等各类编程语言(JavaScript 即将支持)

    • 支持Agent 在 Windows/Mac/Linux/移动端等的跨平台使用

🤖用 TEN 可以做出什么?

1、TEN + SIP:AI 外呼中心

AI 外呼中心,如:企业客服/外呼中心/专业咨询......

让客户打电话给你定制的 AI Agent 专家!

Demo 里演示的是心理咨询专家,可以看到 Agent 在听到“我”说心情不好时语气也低沉了下来,语音在这种场景下比文字更合适。

2、TEN + 硬件:智能玩具

故事机/智能音箱/AI 玩具/智能家居......

目前已支持 ESP32,你可以直接与 ESP32进行低延迟、可打断的对话,让他给你讲个故事。

3、TEN + 数字人:虚拟陪伴

TEN目前支持 Trulience avatars 虚拟形象,让你的 AI 导购/虚拟宠物/AI 游戏陪玩......

你可以让小狗与你切换方言、进行语音交流;

也可以和 AI 一起下棋,动嘴就能操控,解放双手。

4、TEN + Computer Use:语音操控电脑

自然语言交互界面(LUI)会越来越进入我们的生活。

用语音开启浏览器、电脑 App、记 memo......你也可以用 TEN 打造自己的“贾维斯”。

图片

5、TEN + 游戏:AI游戏陪玩

语音剧本杀之东方快车谋杀案。

跟 NPC 聊聊案件发生时 TA 们都在做什么,沉浸式体验,一个人也可以玩剧本杀。

图片

6、TEN + Gemini2.0:看得见的个人助理

在使用 Gemini2.0模型时,TEN 不仅能听见,还能看见!

当通过摄像头/屏幕共享与 TEN 分享图片时,他不仅可以精准地认出小猫咪的颜色,还能辨别出具体品种!🐱

7、TEN + 能说能画的故事机

TEN 提供了 Storyteller 作为 usecase,内置文生图模型插件,可引导用户去共同完成一个故事,同时生成精彩的配套图片

📒如何使用 TEN 呢?

如果您是新手,希望能够 step by step 的学习如果使用 TEN Agent,欢迎参考油管博主 Developer Digest 的教程👇

如果您已经基本了解 TEN 了,也欢迎尝试最新上线的虚拟人 TEN + Trulience👇

最后,如果你对 TEN 感兴趣,欢迎star项目,支持并跟进项目最新动态!

😺 快速体验链接:https://agent.theten.ai/

💻 本地部署 Github 链接:

https://github.com/TEN-framework/TEN-Agent

举报

  • 相关推荐
  • 通付盾AI Agent信任系统建设宣言:从AI到IA,得Agent者得天下

    深耕行业十四年,知浪潮将至,当相向行。本文旨在结合企业思考,探讨AI新时代下的技术与应用趋势,对内秉初心以率众,对外纳灼见求臻。分布式商业和分布式智能也将因小模型的发展大放异彩。

  • 超级Agent如何让AI更“有用”?

    AI助手的最终形态到底是什么样的?从ChatGPT开启的AI聊天机器人,到接入联网能力,再到各种多模态能力的加入。AI助手的能力在以肉眼可见的速度快速迭代。科技的魅力从来不只是炫技,AI的第一个超级应用或许就诞生在那些“有用”的产品之中。

  • 谷歌A2A协议是什么? MCP 和 Agent2Agent 有什么区别?

    4月10日,在GoogleCloudNext大会上,谷歌宣布开源Agent2Agent协议,这一协议被业界视为智能体交互领域的“通用语言”,旨在突破跨平台、多模态协作及安全保障等核心技术瓶颈,并联合全球50余家科技企业共同构建新一代智能生态。本文从技术实现与行业变革两个维度,深度解析A2A协议的核心价值。这一协议的推出,标志着智能体协作模式从封闭系统向开放生态的范式转变,为产业数字化转型注入新动能。

  • 谷歌开源发布A2A协议 Agent2Agent智能体交互协议详细介绍

    在GoogleCloudNext25大会上,谷歌宣布开源了首个标准智能体交互协议——Agent2AgentProtocol,这一举措有望彻底改变智能体之间的交互方式,打破系统孤岛,对智能体的能力、跨平台协作以及执行效率产生质的飞跃。A2A协议是一种开放标准,旨在为智能体提供一种通用的交互方式,使它们能够在不同的底层框架和供应商之间无缝协作。每个部分都有指定的内容类型,这使得客户端和远程智能体能够协商所需的正确格式,并且明确包括用户界面能力的协商,比如iframe、视频、网络表单等,从根据用户的需求和设备的能力,提供最佳的用户体验。

  • 醒醒,只靠MCP和A2A还带不来AI Agent的大繁荣

    文章探讨了AI Agents发展需要类似HTTPS的安全协议保障。回顾互联网发展历程,TCP/IP协议统一了网络通信标准,HTTP协议实现了全球互联,而HTTPS通过SSL加密解决了安全问题。类比互联网发展,当前AI Agents产业面临类似挑战:Anthropic推出的MCP协议解决智能体与工具连接问题,Google的A2A协议实现智能体间协作,但缺乏安全标准。IIFAA联盟正致力于构建AI Agents安全生态,推出ASL中间件保障数据隐私和身份认证。文章指出,正如HTTPS推动电商繁荣,AI Agents的安全标准化将加速商业化进程,蚂蚁集团等企业已开始实践MCP应用。未来AI Agents可能通过统一入口调用工具池,改变现有交互模式。

  • “谷歌版MCP”来了,开源A2A,不同厂商Agent也能协作

    “谷歌版MCP”来了!谷歌推出A2A协议,即Agent2Agent,能让AIAgent在不同生态系统间安全协作无需考虑框架或供应商。不同平台构建的AIAgent之间可以进行通信、发现彼此的能力、协商任务并开展协作,企业可通过专业Agent团队处理复杂工作流。从各大厂最近动作来看,芜湖,不愧是Agent元年。

  • 接替Manus,字节的Agent王牌能打多久?

    字节跳动旗下智能体平台"扣子空间"推出首款由大厂发布的Agent爆款产品,自4月18日上线后引发用户疯抢邀请码。该产品具备规划、工具调用和记忆等关键能力,支持游戏攻略撰写、市场调研等复杂需求,并首创"探索模式"和"规划模式"双交互设计。虽然底层模型能力较DeepResearch和Manus仍有差距,但凭借产品设计优化和量大价优的优势,成功填补了Manus留下的市场空白。字节同步推出企业版HiAgent解决私有化部署问题,半年内智能体业务订单量增长超330%。当前行业正迎来Agent爆发期,但企业落地仍面临系统接入、数据安全等挑战。

  • 「扣子空间」内测上线,和 Agent 一起开始你的工作

    “摘星空间”平台正式推出,集生产、专业领域支持及双模系统协作能力,通过多类型AI智能体实现高效办公,具备生产提升、专家深度支持、双模协同等四大核心功能,未来将持续扩展Agent能力边界。

  • AI Agent大变天!谷歌开源A2A,一夜改变智能体交互

    谷歌在GoogleCloudNext25大会上,开源了首个标准智能体交互协议——Agent2AgentProtocol。A2A将彻底打破系统孤岛,对智能体的能力、跨平台、执行效率产生质的改变,支持Atlassian、Box、Cohere、Intuit、Langchain、MongoDB、PayPal、Salesforce、SAP、ServiceNow、UKG和Workday等主流企业应用平台。通过A2A协议,MongoDB可以使其数据库服务与智能Agent相结合,实现更高效的数据管理和自动化数据处理。

  • Agent重大突破!OpenAI智能体支持MCP,已开源

    今天凌晨2点,OpenAI对AgentSDK进行了重大更新支持MCP服务,可以统一接口标准解锁无限工具。现在Agent可以快速集成网络搜索、专业分析、本地查询、网络追踪等各式各样的工具,这对于开发超复杂自动化智能体来说帮助巨大。OpenAI已经在开源的AgentSDK中支持MCP,API和桌面版ChatGPT也将很快提供。