首页 > AI头条  > 正文

媲美GPT-4o!复旦推语音模型SpeechGPT2 能听懂你的喜怒哀乐

2024-07-25 14:24 · 来源: AIbase基地

在人工智能的世界里,大型语言模型(LLM)已经成为推动自然语言处理(NLP)任务的关键力量。然而,要让这些模型真正理解并生成跨模态内容,如语音和文本,我们还有很长的路要走。复旦大学的研究团队在论文"SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities"中提出了一种创新的解决方案——SpeechGPT。

image.png

SpeechGPT是一种新型的大型语言模型,它不仅能够理解语音和文本,还能够在这两者之间自如转换。这项技术的核心在于将连续的语音信号离散化,使其能够与文本模态统一,从而让模型具备感知和生成语音的能力。

简单来说就是它能够感知和表达情感,并根据上下文和人类指令提供多种风格的语音响应。无论是说唱、戏剧、机器人、搞笑还是低语,SpeechGPT都能够根据需要生成相应风格的语音,这得益于其超过10万小时的学术和野外收集的语音数据,这些数据涵盖了丰富的语音场景和风格。

为了训练SpeechGPT,研究团队采用了一个三阶段的训练策略:

  • 模态适应预训练:在这个阶段,模型通过大量未标记的语音数据进行训练,以预测下一个离散单元,从而适应语音模态。

  • 跨模态指令微调:利用SpeechInstruct数据集,该数据集包含多种任务的指令,模型在这个阶段学习如何理解和执行跨模态的指令。

  • 模态链指令微调:在这个阶段,模型进一步微调,以优化模态间的转换能力。

为了支持SpeechGPT的训练,研究团队构建了首个大规模跨模态语音指令数据集SpeechInstruct。这个数据集包含跨模态指令数据和模态链指令数据,覆盖了多种任务类型。

实验结果显示,SpeechGPT在文本任务、跨模态任务和口语对话任务上都展现出了强大的能力。它能够准确理解和执行各种指令,无论是将语音转录为文本,还是将文本转换为语音,或是进行口语对话。

值得注意的是,尽管SpeechGPT展现了卓越的能力,它在语音理解的噪声鲁棒性和语音生成的音质稳定性方面仍有一些不足。这些挑战主要是由于计算和数据资源的限制。目前,SpeechGPT仍在开发中,团队计划未来开源技术报告、代码和模型权重,以便更广泛的研究社区可以参与到这项技术的进一步发展和完善中。

项目页地址:https://top.aibase.com/tool/speechgpt2

  • 相关推荐
  • AI日报:阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • AI日报:通义千问开源Qwen3向量模型;字节跳动图像编辑模型SeedEdit 3.0;ElevenLabs推v3语音模型

    本文汇总了近期AI领域的重要动态:1)通义千问发布Qwen3-Embedding系列模型,在多语言文本处理表现优异;2)字节跳动推出图像编辑模型SeedEdit3.0,提升细节保持能力;3)ElevenLabs发布情感语音合成系统Eleven v3 Alpha;4)Anthropic推出面向国家安全的Claude Gov模型;5)可灵AI月收入连续两月超1亿元;6)Meta公布智能眼镜Aria Gen2技术细节;7)爱诗科技上线AI视频工具"拍我AI";8)富国银行预测2030年ChatGPT广告收入将达千亿美元。

  • AI日报:Midjourney重磅推出视频生成模型V1;OpenAI将在今年夏季发布GPT-5;谷歌推Search Live语音搜索功能

    本期AI日报聚焦多项AI领域重要进展:1) Midjourney推出首款视频生成模型V1,支持21秒视频生成;2) OpenAI CEO确认GPT-5将于今夏发布;3) Google上线语音对话搜索功能Search Live;4) OpenAI开源客户服务代理框架;5) MiniMax发布智能代理Agent;6) 恶意工具WormGPT出现新变种;7) OpenAI推出企业版ChatGPT折扣;8) DeepSite V2支持3D网页动画生成;9) AI工具可秒变PPT;10) 比亚迪与字节跳动合作开发动力电池技术;11) 马斯克否认xAI巨额亏损传闻。

  • GPTBots 迎来增强版 DeepSeek-R1-0528 模型

    GPTBots.ai平台宣布集成深度求索(DeepSeek)最新开源模型DeepSeek-R1-0528,该模型在推理能力上媲美OpenAI和Google的顶级模型,性能显著提升:数学竞赛准确率从70%提升至87.5%,编程性能从63.5%提升至73.3%。该模型支持JSON输出与函数调用,可无缝嵌入企业工作流,同时推出轻量级版本DeepSeek-R1-0528-Qwen3-8B,仅需16GB GPU内存即可运行。此次集成将强化GPTBots为企业提供金融、医疗、教育等领域的AI解决方案能力,助力企业构建定制化AI应用。平台秉持开源理念,采用MIT许可协议,支持商业使用与定制开发。

  • AI日报:豆包大模型1.6发布;OpenAI推o3-pro模型、o3价格暴降80%;Figma官方MCP重磅上线

    【AI日报】今日AI领域重要动态:1)火山引擎发布豆包大模型1.6和视频生成模型Seedance1.0pro,性能显著提升;2)OpenAI推出o3-pro模型,专注可靠性但响应较慢;3)Figma推出Dev Mode MCP服务,实现设计到代码一键转换;4)Krea AI发布图像生成模型Krea1,解决传统AI绘图问题;5)火山引擎豆包日调用量突破16.4万亿次;6)法国Mistral发布推理模型Magistral;7)苹果系统整合ChatGPT图像生成功能;8)OpenAI大幅下调o3价格80%并推出o3-pro;9)Hugging Face开源榜单显示中国团队Qwen与DeepSeek进入全球前15;10)阿里开源MaskSearch框架,提升AI解决复杂问题能力。

  • 理想汽车OTA7.4正式推送!自研MindGPT-4o-preview模型首次上车

    理想汽车5月28日发布OTA 7.4版本升级,主要亮点包括:1)首次搭载自研MindGPT-4o大模型,智能助手"理想同学"升级为3D毛绒形象,新增双手交互动作,语音交互更自然生动;2)新增"小同桌"多角色对话功能,支持连续聊天和情商引导;3)升级为生活助手Agent,能自主操作车机完成复杂任务,支持支付宝小程序操作;4)新增家庭账号系统、面容识别和对话历史功能;5)影音体验优化,支持前后排独立音区;6)推出儿童节专属"小主人"模式,新增斑马百科应用;7)新增超充站降锁、冰箱定时开关等实用功能;8)优化L6车型CDC悬架系统,提升操控性。

  • 与 ChatGPT 一起“越陷越深”

    ChatGPT 似乎正在让一些用户走上妄想甚至阴谋论的道路,或者说,至少在某种程度上强化了这类思维模式……

  • 曝北大“韦神”账号用做数学分享 抖音副总裁:看大家能听懂多少

    今日,北大韦神”登榜各大平台热搜。 截止6月6日21时,韦东奕仅靠一条4秒的出镜视频,抖音粉丝量就已突破500万。 据媒体从韦东奕堂哥处了解,该账号并非假冒,确实是韦东奕本人账号。 堂哥还表示:此账号后续将分享数学相关内容,使韦东奕与外界有更多接触。”

  • 499元起 荣耀手表Fit发布:搭载Deepseek语音对话 23天长续航

    今日,荣耀手表Fit正式发布,带来雅致版、活力版两种版本,售价分别为499元和699元。 荣耀手表Fit采用1.32英寸圆形AMOLED屏幕,466*466分辨率,活力版为硅胶表带、雅致版为皮表带,表体尺寸(长/宽/高)44mm x 44mm9.9mm,含表带重约44g。 荣耀手表Fit搭载Deepseek语音对话、支持AI语音对话,首发健康能量评估,可全天候计算身体能量值,并随着白天活动和睡眠状态灵敏调整,智能提醒

  • OpenAI奥特曼:GPT5预计今年夏季发布

    OpenAI创始人奥特曼在最新播客中透露,GPT-5预计今夏发布,具体日期未定。 GPT-5将是生成式AI能力的重大升级,《商业内幕》称其远超GPT-4,早期测试者认可进步显著。 GPT-4于2023年3月发布,较上一代GPT-3.5有了显著提升。上月初,奥特曼发文向GPT-4告别。 目前GPT-4o已经完全替代了GPT-4,前者于2024年5月14日发布,其中o”代表omni”,意为 全能”。

今日大家都在搜的词: