西湖心辰开源中文情感端到端语音大模型Westlake-Omni

2024-09-26 08:16 · 来源： AIbase基地

西湖心辰宣布开源其研发的Westlake-Omni模型。作为全球首个开源的中文情感端到端语音交互大模型，Westlake-Omni采用了离散表示法来统一文本和语音模态，特别注重实时性，能够快速响应并提供几乎零延迟的体验。

该模型具备出色的情感理解与表达能力，能够生成清晰、自然、富有表现力的中文语音。这种能力得益于其在高质量中文情感语音数据集上的深度训练，使得模型不仅能够理解中文语境下的复杂情感，还能使交互更加人性化。

微信截图_20240926081503.png

西湖心辰期望通过开源Westlake-Omni模型，鼓励更多开发者参与到中文情感语音交互技术的开发中，共同推动该领域技术的发展和应用。

项目地址:https://github.com/xinchen-ai/Westlake-Omni

相关推荐

中文大模型忠实性幻觉评测：豆包大模型幻觉率仅4%，位居全球收之首

SuperCLUE+最新评测显示，豆包大模型1.5Pro以仅4%的幻觉率和96%的准确率位居全球榜首，超越DeepSeek、Gemini-2.5-pro和GPT-4o等主流模型。该模型在文本摘要、多文本问答等关键任务中表现优异，尤其在中文理解任务上国内领先。基于MoE架构设计，其综合性能超过多款超大规模预训练模型，推理成本显著降低。截至2025年3月，豆包大模型日均调用量达12.7万亿tokens，是一年前的106倍。IDC报告指出火山引擎以46.4%市场份额领跑中国公有云大模型市场。据悉，6月11日将发布豆包大模型最新升级进展。

豆包大模型中文大模型忠实性测评
荐AI日报：通义千问开源Qwen3向量模型；字节跳动图像编辑模型SeedEdit 3.0；ElevenLabs推v3语音模型

本文汇总了近期AI领域的重要动态：1)通义千问发布Qwen3-Embedding系列模型，在多语言文本处理表现优异；2)字节跳动推出图像编辑模型SeedEdit3.0，提升细节保持能力；3)ElevenLabs发布情感语音合成系统Eleven v3 Alpha；4)Anthropic推出面向国家安全的Claude Gov模型；5)可灵AI月收入连续两月超1亿元；6)Meta公布智能眼镜Aria Gen2技术细节；7)爱诗科技上线AI视频工具"拍我AI"；8)富国银行预测2030年ChatGPT广告收入将达千亿美元。

人工智能深度学习文本处理
荐AI日报：扣子空间开放测试；腾讯混元开源视频生成工具HunyuanCustom；阿里开源大模型搜索引擎ZeroSearch

本文汇总了近期AI领域多项重要进展：1)扣子空间开放测试，无需邀请码即可体验AI协作平台；2)腾讯推出HunyuanCustom视频生成工具，实现音视频同步编辑；3)阿里巴巴ZeroSearch技术降低AI训练成本88%；4)OpenAI新增GitHub连接器，强化代码分析功能；5)联想发布天禧个人超级智能体，具备感知交互能力；6)OpenAI在亚洲推出数据驻留计划；7)Multiverse发布全球首款AI生成多人游戏；8)秘塔AI上线"讲题"功能辅助家长辅导；9)Genspark推出智能电子表格工具AI Sheets；10)Google Gemini API新增缓存功能可节省75%成本；11)PixVerse v4视频生成速度质量双提升；12)快手推出内容净化器KuaiMod；13)英伟达开源新一代OCR代码推理模型。这些创新覆盖AI应用、开发工具、成本优化等多个维度，展现了AI技术的快速发展和广泛应用。

AI产品人工智能技术趋势
荐AI日报：阿里开源长文本深度思考模型QwenLong-L1；GPT-4o语音模式上线唱歌功能；秘塔AI搜索推出全新“极速”模型

本文汇总了AI领域最新动态：1)中国信通院发布智能体开发标准，推动AI商业化进程；2)阿里推出QwenLong-L1-32B长文本推理模型，性能媲美Claude-3；3)GPT-4o语音模式升级，新增唱歌功能；4)秘塔AI搜索推出极速模型，响应速度达400tokens/秒；5)谷歌发布LMEval评估框架，统一大模型评测标准；6)Chrome浏览器集成Gemini AI助手；7)阿联酋全民免费使用ChatGPT Plus；8)苏州成立60亿元AI产业基金；9)法国Kyutai实验室推出10秒定制语音的Unmute系统；10)UAV-Flow项目实现无人机语音精准控制；11)Claude将升级支持百万字上下文和记忆功能；12)百度心响iOS版上线；13)夸克推出高考深度搜索功能；14)Chrome v137开发者工具升级；15)美团AI业务接近GPT-4o水平；16)Direct3D-S2实现3D生成速度提升10倍；17)OpenAI计划2026年推出首款AI硬件。

人工智能软件开发 AI标准
端到端AEB正式上线！蔚来乐道Coconut椰子1.2.0版本开启推送

5月29日，乐道汽车宣布端到端AEB系统正式上线，Coconut 1.2.0版本开启推送。本次升级重点包括：1）AEB系统防护范围扩展至240度，覆盖左侧60度高频盲区，基于海量实驾数据优化避险能力；2）车载AI语音上线麦当劳智能点餐服务，支持全程语音操作、随心换餐和到店时间预测；3）新增语音控制功能，可通过指令完成泊车影像开启、快速启动DeepSeek等操作；4）无麦K歌升级至2.0版本，新增AI伴唱、音效优化等功能。此次更新全面提升智能驾驶与车载娱乐体验。

乐道汽车端到端AEB 车载AI语音
荐一场文心大模型的「AI马拉松」

对于百度而言，既要保持长期主义的战略定力，也要在技术路径上灵活应变，这种「变与不变」的平衡或许正是其在这轮科技革命中的制胜之道。 2025年，模型能力的重要性依然无需多言。从预训练的角度来看，虽然连 OpenAI 前首席科学家 Ilya Sutskever 都说，预训练数据即将用尽，但海量的图像、视频等多模态数据资源依然有待挖掘。从后训练的角度来看，强化学习新范式正�

AI发展模型能力预训练技术
荐超越OpenAI、拿下全球双料第一，“AI吴彦祖”背后大模型SOTA了！

超越OpenAI! 国产大模型突袭，AI语音生成天花板被重新定义了。 MiniMax最新发布Speech-02，同时拿下Artificial Analysis Speech Arena和Hugging Face TTS Arena两项全球权威语音基准测评第一!

AI语音生成国产大模型 Speech-02发布
持续霸榜！可灵2.0模型登顶全球视频生成大模型榜单

快手旗下可灵AI 2.0模型在权威AI评测中表现优异，以1124分超越自研1.6版本，连续三个月蝉联全球图生视频领域冠军。4月15日发布的2.0大师版在视频质量、语义理解和画面美学等核心指标持续领先行业。数据显示，自2023年6月上线以来，可灵AI全球用户突破2200万，月活激增25倍，累计生成视频1.68亿个、图片3.44亿张。商业化方面，其单月流水已超千万元，并与伊利、vivo等头部品牌达成深度合作，展现出AI视频生成技术的广阔商业前景。
大模型时代：内容产业智变新浪潮

腾讯研究院院长司晓在第15届中国（深圳）国际文化产业博览交易会上发表演讲，指出大模型技术正推动文化内容生产从"专业主导"转向"全民共创"。大模型已从工具赋能升级为生态重构，显著提升内容生产效率和质量，如腾讯混元模型支持实时图像生成与调整。AI技术加速影视、音乐等内容创作，如上海民族乐团与腾讯音乐合作的AI音乐会《零·壹 | 中国色》。同时，大模型在理解与交互能力上取得突破，如GPT-4o能准确识别物体细节。腾讯通过"探元计划"推动科技与文化融合，如"云游敦煌"等项目。未来，AI将实现"智力即服务"，大幅提升创作效率和质量，推动文化内容产业进入"千人千面"新时代。

大模型文化内容生产人工智能发展
Anthropic 开始给 Claude 搞“语音模式”了

默认情况下，该功能由 Anthropic 的 Claude Sonnet 4 模型提供支持，大多数免费用户每天大约可使用 20 到 30 次。此外，只有付费用户才能使用一项 Google Workspace 连接功能……

Anthropic Claude语音模式 Claude

今日大家都在搜的词：

热文

3 天
7天

西湖心辰开源中文情感端到端语音大模型Westlake-Omni

中文大模型忠实性幻觉评测：豆包大模型幻觉率仅4%，位居全球收之首

荐AI日报：通义千问开源Qwen3向量模型；字节跳动图像编辑模型SeedEdit 3.0；ElevenLabs推v3语音模型

荐AI日报：扣子空间开放测试；腾讯混元开源视频生成工具HunyuanCustom；阿里开源大模型搜索引擎ZeroSearch

荐AI日报：阿里开源长文本深度思考模型QwenLong-L1；GPT-4o语音模式上线唱歌功能；秘塔AI搜索推出全新“极速”模型

端到端AEB正式上线！蔚来乐道Coconut椰子1.2.0版本开启推送

荐一场文心大模型的「AI马拉松」

荐超越OpenAI、拿下全球双料第一，“AI吴彦祖”背后大模型SOTA了！

持续霸榜！可灵2.0模型登顶全球视频生成大模型榜单

大模型时代：内容产业智变新浪潮

Anthropic 开始给 Claude 搞“语音模式”了

今日大家都在搜的词：

热文

华为Pura 80 Pro/Pro+在华为官方商城上架

迅雷完成对虎扑的收购斥资5个亿

小鹏宣布将联手华为打造“世界上最好”的AR-HUD

站长商机