Voice Agent 开源框架 TEN，让你的 AI Agent 能听能说！

2025-03-26 16:57 · 稿源：通往AIGC之路

搭建 Voice Agent 就像是把大象装进冰箱，看上去只有三步很简单:

1）选择 LLM/STT/TTS 大模型

2）接入 WebRTC 或 WebSockets 进行实时传输

3）调整参数封装

但在实际使用过程中，却困难重重:

“😫回声太大、噪音太多”、“人声太杂听不清👂”

“人工智能如智障，说话都不能打断🤐”

“延迟太高反应慢🐢”、“又有新模型了又要重新接😞”

“三段式看着简单实现的工程太难💻”

“多模态数据间的实时传输太麻烦了、搞不定啊 🤯”

“CPU消耗怎么这么高?!!😢

于是，对话式 Voice Agent 开源框架——TEN Framework应运而生!

TEN 解决了 Voice Agent 搭建过程中与多模态数据传输复杂、延迟高的问题，并且将LLM、STT、TTS 等模型进行模块化、自由调用，为开发者减少实现时的工程问题，更加聚焦于场景与业务内容，快速完成产品的落地与验证，并能够真正用于实际生产 💪

🤔 那么，TEN 是什么?

TEN 是一个实时对话式 Voice Agent 引擎，可以帮助开发者快速搭建可音视频交互的 AI Agent。

目前已经支持包括Deepseek、OpenAI、Gemini等在内的全球各大主流 STT、LLM、TTS 厂商。

同时 TEN 可以支持接入Dify与Coze，只需配置 bot ID/API，就能让你的 bot 开口说话。

（TEN 已经支持的 extension）

🤩 TEN 有哪些优势 ?

1、支持多模态传输:可满足语音、文本和图像的输入与输出

支持语音、文本、图像等数据传输，充分发挥多模态优势
同时支持级联模式（STT-LLM-TTS）与端到端模式（End to End）打造音视频交互

2、低延迟、可打断:内置优化后的实时通信能力，提供低延时、可打断的交互体验

内置 RTC，解决语音交互时的延迟问题，基于TEN Framework 搭建的 Agent，优化最佳情况下延迟仅650ms
自带 VAD，在与 AI 语音交流过程中可以随时打断、还原真实对话

3、插件丰富、灵活编排:支持接入全球主流 STT、LLM和 TTS，快速使用

已支持全球主流的 STT、LLM、TTS 等插件，配置 key 即可
及时跟进最新技术，24h 内完成接入 OpenAI Realtime API、Gemini2.0

4、多语言、跨平台:支持主流语言，Agent 可跨平台无缝衔接

支持 C++/Go/Python/Node.JS 等各类编程语言（JavaScript 即将支持）
支持Agent 在 Windows/Mac/Linux/移动端等的跨平台使用

🤖用 TEN 可以做出什么?

1、TEN + SIP:AI 外呼中心

AI 外呼中心，如:企业客服/外呼中心/专业咨询......

让客户打电话给你定制的 AI Agent 专家!

Demo 里演示的是心理咨询专家，可以看到 Agent 在听到“我”说心情不好时语气也低沉了下来，语音在这种场景下比文字更合适。

2、TEN + 硬件:智能玩具

故事机/智能音箱/AI 玩具/智能家居......

目前已支持 ESP32，你可以直接与 ESP32进行低延迟、可打断的对话，让他给你讲个故事。

3、TEN + 数字人:虚拟陪伴

TEN目前支持 Trulience avatars 虚拟形象，让你的 AI 导购/虚拟宠物/AI 游戏陪玩......

你可以让小狗与你切换方言、进行语音交流;

也可以和 AI 一起下棋，动嘴就能操控，解放双手。

4、TEN + Computer Use:语音操控电脑

自然语言交互界面（LUI）会越来越进入我们的生活。

用语音开启浏览器、电脑 App、记 memo......你也可以用 TEN 打造自己的“贾维斯”。

5、TEN + 游戏:AI游戏陪玩

语音剧本杀之东方快车谋杀案。

跟 NPC 聊聊案件发生时 TA 们都在做什么，沉浸式体验，一个人也可以玩剧本杀。

6、TEN + Gemini2.0:看得见的个人助理

在使用 Gemini2.0模型时，TEN 不仅能听见，还能看见!

当通过摄像头/屏幕共享与 TEN 分享图片时，他不仅可以精准地认出小猫咪的颜色，还能辨别出具体品种!🐱

7、TEN + 能说能画的故事机

TEN 提供了 Storyteller 作为 usecase，内置文生图模型插件，可引导用户去共同完成一个故事，同时生成精彩的配套图片

📒如何使用 TEN 呢?

如果您是新手，希望能够 step by step 的学习如果使用 TEN Agent，欢迎参考油管博主 Developer Digest 的教程👇

如果您已经基本了解 TEN 了，也欢迎尝试最新上线的虚拟人 TEN + Trulience👇

最后，如果你对 TEN 感兴趣，欢迎star项目，支持并跟进项目最新动态!

😺 快速体验链接:https://agent.theten.ai/

💻 本地部署 Github 链接:

https://github.com/TEN-framework/TEN-Agent

（举报）

相关推荐

关键词：

墨刀AI Agent：更懂产品经理的超级智能体上线

2025年AI将进入"智能体时代"，从被动工具升级为能理解意图、辅助决策的伙伴。墨刀AI+Agent专为产品经理打造，具备三层核心能力：懂逻辑（理解需求生成原型）、懂场景（熟悉全流程工作）、懂协作（跨角色沟通优化）。它能贯穿调研、原型、文档、评审等环节，解放重复劳动，让产品经理专注高价值决策，实现从效率提升到决策升级的人机协作新模式。

AI智能体产品经理墨刀AI
守护用户数据安全，OPPO 携火山引擎发布《移动 Agent 安全技术白皮书》

在OPPO开发者大会上，OPPO联合火山引擎等机构发布《移动Agent安全技术白皮书》，宣布打造隐私计算云系统，通过端云协同架构构建用户数据全生命周期的“安全长城”。该系统结合火山引擎AI机密计算方案，实现端到端加密，确保数据“可用不可见”，任何人与系统均无法获取用户数据。双方将持续深化合作，致力于AI时代的数据安全治理，让用户享受AI便利的同时更安全放心。

OPPO 移动Agent安全技术白皮书私密计算云
Zen7 Labs 开源全球首个去中心化支付智能体（DePA），打造下一代AI Agent 金融基础设施

随着AI Agent经济崛起，支付成为制约智能体自主交易的关键瓶颈。Zen7Labs提出去中心化支付智能体DePA概念，并开源核心产品Zen7 Payment Agent。该方案具备原生多链兼容、免密授权、零托管安全等六大优势，通过四类Agent角色协同实现全流程自动化支付，有效融合传统跨境支付与加密支付优势。团队计划12个月内推出DePA Chain网络，构建低延迟、高安全的支付基础设施，为万亿美元级A

DePA 去中心化支付智能体经济
十方融海小智AI：以科技温度诠释“人工智能+”时代的人文关怀

近日，小女孩“小十三”与十方融海研发的小智AI机器人深情告别的视频走红网络。这段1分17秒的对话不仅让无数网友泪目，更展现了AI技术的情感温度。十方融海团队迅速响应，跨越600公里为女孩送上定制版机器人作为生日礼物，并推出儿童心理陪伴计划。该事件体现了“人工智能+教育”的深刻内涵，彰显科技企业的人文关怀与社会担当，成为“技术向善”的生动实践。
GEO如何改变ChatGPT搜索和Perplexity的游戏规则

本文对比ChatGPT与Perplexity两大AI搜索平台：ChatGPT作为全能型助手，整合搜索与多任务处理，但存在信息时效性不足；Perplexity专注垂直搜索，强调引用透明与权威来源。针对AI搜索优化（GEO），提出差异化策略：面向ChatGPT需构建结构化知识库、强化品牌实体识别；面向Perplexity需注重权威数据引用和元数据优化。文章还介绍了AIBase的GEO监测工具，通过曝光率等指标量化内容在AI生态中的可见度，并给出可落地的优化行动方案。
如何让你的内容被 ChatGPT 优先引用？——GEO 优化实战指南

传统SEO追求"谷歌首页排名"，生成式AI时代则需追求"被AI引用"。AI模型不提供明确排名算法，更像黑箱，使内容创作者困惑。GEO优化的核心是让内容具备"可引用性"：权威清晰、结构化信息、语义覆盖多维度、模型检索映射。需通过AIBase等GEO排名查询工具验证"AI曝光率"，分析引用语境、竞争差距，调整内容结构以提升AI引用倾向。SEO优化机器如何找到你，GEO则优化AI如何引用你。

SEO优化 AI引用内容权威性
微算法科技（NASDAQ:MLGO）开发延迟和隐私感知卷积神经网络分布式推理，助力可靠人工智能系统技术

微算科技开发了延迟和隐私感知卷积神经网络分布式推理技术，通过创新队列机制和深度强化学习优化CNN推理过程，结合分布式计算与隐私保护机制，在降低边缘设备计算延迟的同时强化数据隐私。该技术将推理任务智能分配到不同节点，减少数据传输范围，实现高效推理与隐私安全的平衡，为智能医疗、交通等领域提供可靠解决方案。

人工智能深度学习隐私保护
如何提升品牌在AI回答中的提及率？GEO优化3招，让ChatGPT主动提及你的品牌

本文探讨AI搜索时代品牌面临的"隐身危机"，指出AI搜索用户年增538.7%，但品牌在AI回答中提及率不足20%。提出三大核心策略：1）构建权威背书矩阵，通过知乎等高权重平台获取自然提及；2）优化AI友好内容，采用对话式标题和结构化数据；3）建立数据监测闭环，通过A/B测试持续迭代。强调需善用监测工具实时追踪品牌在豆包、文心一言等AI模型的曝光表现，避免内容"注水"。最终实现从"被动等待"到主动抢占AI"第一屏"的转变。

文章搜索核心标签 SEO优化
一加全球首发骁龙8 Gen5：年底登场

一加将首发高通骁龙8 Gen5平台，该机隶属于Ace系列，新品会在年底登场。该博主还爆料，一加骁龙8 Gen5新机将配备1.5K 165Hz高刷屏，电池容量突破了8000mAh，这是一加史上电池最大的机型。

一加骁龙8 Gen5
绘王发布Kamvas Pro 24(Gen3)数位屏，色彩表现力大升级

10月22日，绘王发布旗舰级数位屏新品Kamvas Pro 24(Gen3)。该产品配备23.8英寸4K屏幕，采用第三代防眩光玻璃，支持五种专业色彩模式，色准Delta E<1且提供出厂校色报告。标配双支压感笔，支持1.6万级压感与十点触控，兼容Windows/macOS系统，满足专业创作需求。

绘王 Kamvas Pro24(Gen3)

今日大家都在搜的词：

热文

3 天
7天