首页 > 业界 > 关键词  > Voice最新资讯  > 正文

Voice Agent 开源框架 TEN,让你的 AI Agent 能听能说!

2025-03-26 16:57 · 稿源:通往AIGC之路

搭建 Voice Agent 就像是把大象装进冰箱,看上去只有三步很简单:

1)选择 LLM/STT/TTS 大模型

2)接入 WebRTC 或 WebSockets 进行实时传输

3)调整参数封装

但在实际使用过程中,却困难重重:

“😫回声太大、噪音太多”、“人声太杂听不清👂”

人工智能如智障,说话都不能打断🤐”

“延迟太高反应慢🐢”、“又有新模型了又要重新接😞”

“三段式看着简单实现的工程太难💻”

“多模态数据间的实时传输太麻烦了、搞不定啊 🤯”

“CPU消耗怎么这么高?!!😢

于是,对话式 Voice Agent 开源框架——TEN Framework应运而生!

TEN 解决了 Voice Agent 搭建过程中与多模态数据传输复杂、延迟高的问题,并且将LLM、STT、TTS 等模型进行模块化、自由调用,为开发者减少实现时的工程问题,更加聚焦于场景与业务内容,快速完成产品的落地与验证,并能够真正用于实际生产 💪

🤔 那么,TEN 是什么?

TEN 是一个实时对话式 Voice Agent 引擎,可以帮助开发者快速搭建可音视频交互的 AI Agent。

目前已经支持包括Deepseek、OpenAI、Gemini等在内的全球各大主流 STT、LLM、TTS 厂商。

同时 TEN 可以支持接入DifyCoze,只需配置 bot ID/API,就能让你的 bot 开口说话。

图片

(TEN 已经支持的 extension)

🤩 TEN 有哪些优势 ?

1、支持多模态传输:可满足语音、文本和图像的输入与输出

    • 支持语音、文本、图像等数据传输,充分发挥多模态优势

    • 同时支持级联模式(STT-LLM-TTS)端到端模式(End to End)打造音视频交互

2、低延迟、可打断:内置优化后的实时通信能力,提供低延时、可打断的交互体验

    • 内置 RTC,解决语音交互时的延迟问题,基于TEN Framework 搭建的 Agent,优化最佳情况下延迟仅650ms

    • 自带 VAD,在与 AI 语音交流过程中可以随时打断、还原真实对话

3、插件丰富、灵活编排:支持接入全球主流 STT、LLM和 TTS,快速使用

    • 已支持全球主流的 STT、LLM、TTS 等插件,配置 key 即可

    • 及时跟进最新技术,24h 内完成接入 OpenAI Realtime API、Gemini2.0

4、多语言、跨平台:支持主流语言,Agent 可跨平台无缝衔接

    • 支持 C++/Go/Python/Node.JS 等各类编程语言(JavaScript 即将支持)

    • 支持Agent 在 Windows/Mac/Linux/移动端等的跨平台使用

🤖用 TEN 可以做出什么?

1、TEN + SIP:AI 外呼中心

AI 外呼中心,如:企业客服/外呼中心/专业咨询......

让客户打电话给你定制的 AI Agent 专家!

Demo 里演示的是心理咨询专家,可以看到 Agent 在听到“我”说心情不好时语气也低沉了下来,语音在这种场景下比文字更合适。

2、TEN + 硬件:智能玩具

故事机/智能音箱/AI 玩具/智能家居......

目前已支持 ESP32,你可以直接与 ESP32进行低延迟、可打断的对话,让他给你讲个故事。

3、TEN + 数字人:虚拟陪伴

TEN目前支持 Trulience avatars 虚拟形象,让你的 AI 导购/虚拟宠物/AI 游戏陪玩......

你可以让小狗与你切换方言、进行语音交流;

也可以和 AI 一起下棋,动嘴就能操控,解放双手。

4、TEN + Computer Use:语音操控电脑

自然语言交互界面(LUI)会越来越进入我们的生活。

用语音开启浏览器、电脑 App、记 memo......你也可以用 TEN 打造自己的“贾维斯”。

图片

5、TEN + 游戏:AI游戏陪玩

语音剧本杀之东方快车谋杀案。

跟 NPC 聊聊案件发生时 TA 们都在做什么,沉浸式体验,一个人也可以玩剧本杀。

图片

6、TEN + Gemini2.0:看得见的个人助理

在使用 Gemini2.0模型时,TEN 不仅能听见,还能看见!

当通过摄像头/屏幕共享与 TEN 分享图片时,他不仅可以精准地认出小猫咪的颜色,还能辨别出具体品种!🐱

7、TEN + 能说能画的故事机

TEN 提供了 Storyteller 作为 usecase,内置文生图模型插件,可引导用户去共同完成一个故事,同时生成精彩的配套图片

📒如何使用 TEN 呢?

如果您是新手,希望能够 step by step 的学习如果使用 TEN Agent,欢迎参考油管博主 Developer Digest 的教程👇

如果您已经基本了解 TEN 了,也欢迎尝试最新上线的虚拟人 TEN + Trulience👇

最后,如果你对 TEN 感兴趣,欢迎star项目,支持并跟进项目最新动态!

😺 快速体验链接:https://agent.theten.ai/

💻 本地部署 Github 链接:

https://github.com/TEN-framework/TEN-Agent

举报

  • 相关推荐
  • 通付盾AI Agent信任系统建设宣言:从AI到IA,得Agent者得天下

    深耕行业十四年,知浪潮将至,当相向行。本文旨在结合企业思考,探讨AI新时代下的技术与应用趋势,对内秉初心以率众,对外纳灼见求臻。分布式商业和分布式智能也将因小模型的发展大放异彩。

  • 超级Agent如何让AI更“有用”?

    AI助手的最终形态到底是什么样的?从ChatGPT开启的AI聊天机器人,到接入联网能力,再到各种多模态能力的加入。AI助手的能力在以肉眼可见的速度快速迭代。科技的魅力从来不只是炫技,AI的第一个超级应用或许就诞生在那些“有用”的产品之中。

  • 谷歌A2A协议是什么? MCP 和 Agent2Agent 有什么区别?

    4月10日,在GoogleCloudNext大会上,谷歌宣布开源Agent2Agent协议,这一协议被业界视为智能体交互领域的“通用语言”,旨在突破跨平台、多模态协作及安全保障等核心技术瓶颈,并联合全球50余家科技企业共同构建新一代智能生态。本文从技术实现与行业变革两个维度,深度解析A2A协议的核心价值。这一协议的推出,标志着智能体协作模式从封闭系统向开放生态的范式转变,为产业数字化转型注入新动能。

  • 谷歌开源发布A2A协议 Agent2Agent智能体交互协议详细介绍

    在GoogleCloudNext25大会上,谷歌宣布开源了首个标准智能体交互协议——Agent2AgentProtocol,这一举措有望彻底改变智能体之间的交互方式,打破系统孤岛,对智能体的能力、跨平台协作以及执行效率产生质的飞跃。A2A协议是一种开放标准,旨在为智能体提供一种通用的交互方式,使它们能够在不同的底层框架和供应商之间无缝协作。每个部分都有指定的内容类型,这使得客户端和远程智能体能够协商所需的正确格式,并且明确包括用户界面能力的协商,比如iframe、视频、网络表单等,从根据用户的需求和设备的能力,提供最佳的用户体验。

  • “谷歌版MCP”来了,开源A2A,不同厂商Agent也能协作

    “谷歌版MCP”来了!谷歌推出A2A协议,即Agent2Agent,能让AIAgent在不同生态系统间安全协作无需考虑框架或供应商。不同平台构建的AIAgent之间可以进行通信、发现彼此的能力、协商任务并开展协作,企业可通过专业Agent团队处理复杂工作流。从各大厂最近动作来看,芜湖,不愧是Agent元年。

  • AI Agent大变天!谷歌开源A2A,一夜改变智能体交互

    谷歌在GoogleCloudNext25大会上,开源了首个标准智能体交互协议——Agent2AgentProtocol。A2A将彻底打破系统孤岛,对智能体的能力、跨平台、执行效率产生质的改变,支持Atlassian、Box、Cohere、Intuit、Langchain、MongoDB、PayPal、Salesforce、SAP、ServiceNow、UKG和Workday等主流企业应用平台。通过A2A协议,MongoDB可以使其数据库服务与智能Agent相结合,实现更高效的数据管理和自动化数据处理。

  • Agent重大突破!OpenAI智能体支持MCP,已开源

    今天凌晨2点,OpenAI对AgentSDK进行了重大更新支持MCP服务,可以统一接口标准解锁无限工具。现在Agent可以快速集成网络搜索、专业分析、本地查询、网络追踪等各式各样的工具,这对于开发超复杂自动化智能体来说帮助巨大。OpenAI已经在开源的AgentSDK中支持MCP,API和桌面版ChatGPT也将很快提供。

  • 刚刚,OpenAI开源PaperBench,重塑顶级AI Agent评测

    今天凌晨1点,OpenAI开源了一个全新的AIAgent评测基准——PaperBench。这个基准主要考核智能体的搜索、整合、执行等能力,需要对2024年国际机器学习大会上顶尖论文的复现,包括对论文内容的理解、代码编写以及实验执行等方面的能力。目前智能体的能力还无法超越人类。

  • 中国首款AI CRM深度拆解丨6大Agent场景一文吃透

    在数字化转型步入深水区的今天,企业正面临一场静默的革命:海量数据如何高效转化为精准行动?复杂业务场景如何实现智能决策?组织效能如何借技术实现指数级跃迁?销售易CRM与DeepSeek和腾讯混元大模型深度整合,推出全新NeoAgent,以NeoAgent平台和六大场景化垂直业务智能体为牵引,为企业构建营销服一体化的智能增长引擎,重新定义CRM的体验、场景和业务价值。革命性创新的AI交互体验传统CRM深陷表单迷宫,特别对于在外出差、忙于拜访客户的销售人员来说,在CRM中多步点击、手工录入、进入菜单操作流程,费时费力,导致销售人员主观上不爱被CRM系统管控和束缚、客观上也觉得传统CRM的操作体验难用费劲。CustomerDataCloud构建Agent时代的数据基石销售易全新AICRM——NeoAgent以AI重塑CRM新范式,开启营销服一体化智能增长新纪元。

  • ChatGPT终于发布长期记忆功能,开启个人Agent时代

    今天凌晨1点,OpenAI对ChatGPT功能进行了大更新,新增长期记忆功能,可以记住你过去所有的聊天记录,会根据你的兴趣、偏好提供更个性化的回答。这对于写小说、金融分析、教育等领域帮助巨大。Team、Enterprise和Edu用户将在几周后获得使用权限。