首页 > 业界 > 关键词  > 模型库PaddleSpeech最新资讯  > 正文

实时性升至秒级!百度飞桨赋能金融双录业务走向智能化

2023-01-16 19:58 · 稿源: TechWeb.com.cn

你是否经历过这样的场景?

当你去银行购买理财产品时,理财经理告诉你需要进行录音录像采集,经过你的同意后,理财经理会打开放置在柜台上的摄像头,然后向你确认身份信息,提示产品风险,还会给你一些材料阅读签字。

这一过程涉及到了标准的金融双录。

所谓“双录”是银行在销售每笔理财产品时使用双录电子设备对过程进行录音和录像。采用双录初衷是为了规范销售话术,确保消费者的知情权,避免工作人员违规操作等潜在风险。自2017年起,银监会陆续出台了一系列监管政策规范金融产品销售行为,明确规定银行业金融机构销售专区必须实行双录。由此,双录成为各大银行销售理财产品的“规定动作”。

01

传统金融双录质检滞后,AI破解实时性难题

双录完成后,通常银行的做法是派工作人员对双录内容进行质检,检查双录过程中是否存在违规操作、是否符合银监会的要求以及银行内部的操作流程等。

但这种方式是通过人工抽查做事后质检,存在时效性滞后、风险覆盖率低、人力成本高等问题。首先,如果质检发现双录过程存在问题,实际上很多业务已经完成了,无法做到实时监管和介入,往往会给银行造成重大损失;其次,庞大的人工质检团队依然难以对双录过程展开全面质检,包括客户不在场、人员更换、代客操作和收受回扣等非正常行为。

据统计,在传统双录场景中,一笔双录业务平均大约花费1小时左右,一次性通过率小于50%,这种低通过率大部分源于操作不规范、话语遗漏等,影响了客户购买理财产品的业务体验,从而降低其购买意愿。

近几年来,银行因双录工作不规范被罚款的事件屡有发生,在一定程度上也暴露了传统双录质检系统的弊端。

银行因双录不规范被罚款新闻截图

不但如此,从银行自身而言,建设一套人工双录质检系统也是一件耗时耗力的工程。一方面,人工质检需要银行持续投入预算,每位客户的录音录像都要保存下来,银行要配备上百人的团队做质检,而质检不合格的视频又需要客户到现场进行重录,鉴于重录操作难度大,造成客户购买理财产品的体验感差;另一方面,为了完成双录质检,银行将不同网点对应的不同销售区域的数据收集上来,汇聚到银行的数据中心,这中间处理非常大的数据量,花费时间周期较长。

基于对上述金融双录业务场景和行业痛点的深刻洞察,杭州谐云科技有限公司(简称谐云)的边缘智能团队发现,人工质检的滞后性给金融双录业务造成了巨大的麻烦和漏洞,如果能引入音视频分析、 AI语音识别边缘计算等技术,实现双录过程的智能化质检,将对提升金融双录质检的效率,改善客户购买理财产品的体验,降低银行运营成本等具有重要意义。

02

飞桨 PaddleSpeech 让双录质检实时性升至秒级

谐云边缘智能团队自2021年开始从事算法研究,终于历经一年半的时间,推出完整的双录智能质检解决方案。该方案深度融合了百度飞桨的语音模型库PaddleSpeech与自研的视频AI分析算法模型,设计出双录语音视频质检方案,可为银行降低90%的人力成本,使银行从过去上百人的质检团队缩减到几人;同时引入边缘计算,实现双录实时质检,相比于传统的事后质检,实时性从原来的小时级别提高到了秒级。

谐云双录智能质检系统架构图

这样一来,方案既通过监测音视频质量,对于录制过程中出现的如无声、花屏、黑屏等情况做出及时提醒,减少了人工双录过程中的录制失败、操作不规范等情况,使双录成功率整体提高30%,大幅改善了客户购买理财产品的体验;也能将部分稽查质检工作提前到事中,尽早识别出危险情况,通过告警提前介入,最大程度减少风险产生的经济损失,有助于银行理财产品及代销的销售环节监管无真空,有效保护消费者的知情权,最终实现“买者自负,卖者尽责”。

据谐云智能边缘团队的AI技术专家陈雪儿介绍,该方案在语音识别研发部分用到飞桨语音模型库PaddleSpeech。她提到,语音识别最终目的是还原双录中双方的对话,呈现出像微信对话框一样有身份、有顺序、有内容、有标点的对话效果。分解到具体步骤,开始要对原始的音频文件进行语音分割,若非双声道音频,则要对说话人进行分类(指用声音特征区分说话人身份,即声纹识别),分类之后再做语音识别,形成文本,做标点恢复,得到最终的完整的对话结果。

其中,最后一个步骤语音识别部分,谐云研发团队运用了飞桨语音模型库PaddleSpeech里的模型U2Model执行语音识别任务。

之所以选择飞桨PaddleSpeech模型库,是因为陈雪儿团队在研发双录质检项目过程中,察觉到金融行业对于语音质检有着强烈的需求,在对比市面上其他语音识别的开源产品框架后,他们认为飞桨框架具有明显优势,主要体现在资料全,为开发者提供了较多的预训练模型和对应的语音数据集,同时模型精度较高。

2022年7月,谐云科技的技术专家在网络平台上发布了一篇题为《谐云课堂 | 浅谈智能语音技术在双录质检中的应用》的文章,百度飞桨的产品经理看到这篇文章找到了谐云,双方建立联系并迅速开启了深度合作。9月,谐云科技和百度飞桨联合组织金融直播课介绍双录质检解决方案。11月,谐云与百度飞桨达成合作,正式加入飞桨技术伙伴计划,双方继续在智慧双录、音频质检等领域积极探索。

03

借助飞桨将语音识别准确率提高到95%

听说IT圈十个人里有九个是男性开发者,女生并不多,陈雪儿可以算是这个群体中独特的存在。

刚开始聊到与AI相关的话题时,陈雪儿显得有点儿腼腆。她坦言,自己是比较典型的理科生性格,本科学的是计算机专业,研究生考到浙江大学,主攻方向是人工智能。读研期间,陈雪儿接触到了浙江大学SEL实验室(Soft Engineering Lab,SEL),由此与谐云结下了不解之缘。

2011年,浙江大学SEL实验室在浙大计算机学院和超大规模信息实验室支持下成立,后来实验室不断扩大,到2016 年孵化创立了谐云,目前已经发展到500多人。陈雪儿毕业后跟随团队老师来到了谐云工作,2020年,陈雪儿加入谐云边缘计算团队,并成为团队技术骨干,她的团队当时就意识到边缘计算与 AI 的结合是未来的趋势,于是谐云加速布局 “AI +边缘计算”领域。

引入自研的边缘计算是双录质检系统的一大亮点。陈雪儿进一步解释到,目前市场上大多数的IoT解决方案是把算法或应用以SDK等方式固化到设备中, 如果需要更新算法、应用,就要替换整个设备,在边缘设备部署智能应用的情况下,当面临应用更新迭代以及场景扩充时,这种传统的方式明显不够灵活。

谐云采用云边协同的方式,在银行的数据中心部署云端智能管理平台,能实现快捷方便地在云端直接一键部署应用,并进行更新迭代。同时,这种边缘计算模式由于将算力下沉到了边缘侧,使得双录过程中的音频视频数据能就近获得处理,大大提升了处理的时效性,为双录场景下实时处理音频视频数据处理提供了重要的框架支撑。

双录质检系统的研发过程充满了挑战。陈雪儿回忆到,他们最开始以为这只是一个普通的语音识别的任务,后面才发现双录过程对说话人的身份和顺序有严格的要求,因此说话人分类以及语音分割十分重要。此外,双录过程中会出现许多比较难以识别的短句,一些方言口音识别不好也可能造成质检误报等情况,他们针对这些问题都专门做了模型调整和优化。

在模型调整方面,谐云的团队通过“算法和数据扩充”的方式,使用飞桨框架,基于飞桨语音模型库PaddleSpeech对算法模型进行了重新训练,由于PaddleSpeech中U2Model模型采用端到端的语音识别模式,在执行语音识别任务方面相对于传统方法识别效果更佳、精度较高,经过训练后的模型语音识别准确率提高到了95% 。

PaddleSpeech模型库全景图

据了解,谐云的双录智能质检系统已在某城商行、某商业银行等落地。未来,谐云将继续推进更多银行试点,优化双录质检解决方案及应用场景。陈雪儿谈到,她希望双录的能力将来可以加入到无人银行的自助设备机以及远程银行的流程中,为金融行业数字化升级和智慧银行添智赋能。

除了金融双录业务外,双录质检系统还能应用到诸多音频视频需求的场景中,例如,视频客服过程中实时监测内容和质量,金融贷款业务中监控违规行为等。

随着金融数字化转型步伐加快,以人工智能为代表的新技术正成为助力金融科技变革的一股新力量,除了上述提到的语音模型库之外,飞桨深度学习开源开放平台还包含PaddleNLP、PaddleVideo、PaddleDetection等众多覆盖不同场景和任务的模型库和套件,正落地应用到金融业务各场景中帮助金融机构降险增效和智能化升级。

举报

  • 相关推荐
  • AI日报:昆仑万维天工超级智能体发布;OpenAI核心API支持MCP;百度飞桨PaddleOCR 3.0开源

    【AI日报】汇总了近期AI领域重要动态:1)百度飞桨发布PaddleOCR3.0,提升文字识别精度13%;2)昆仑万维发布天工超级智能体,AI办公成本仅为OpenAI的40%;3)OpenAI API新增MCP支持简化开发流程;4)xAI推出实时网页搜索API;5)谷歌Sparkify可将问题秒变动画;6)Mistral发布高效代码模型Devstral;7)Video Ocean推出4K视频生成工具;8)谷歌推出AI内容识别工具SynthID;9)谷歌NotebookLM使用量半年增长56%;10)硅基流动升级128K长文本模型;11)DeepMind发布音乐生成模型Lyria2;12)多模态大模型MMaDA实现跨模态推理;13)微软发布网页智能体Magentic-UI;14)Framer推出AI建站套件。

  • 建鼎智能:助力制造企业智能化转型升级

    浙江建鼎智能科技专注于智能制造和工业自动化领域,致力于推动制造企业智能化转型。公司提供智能工厂规划、自动化设备研发、工业机器人应用等一站式解决方案,涵盖焊接、搬运、装配等多个领域。凭借物联网技术实现设备互联与数据分析,提供实时监控和预测性维护服务。已获得4项ISO认证、3项软著及16项专利,技术实力雄厚。母公司浙江大盟智能科技为省级高新技术企业,为建鼎发展提供坚实后盾。公司正引领制造业迈向智能化升级新征程,助力行业高质量发展。

  • 九四智能亮相大阪,AI大模型驱动全球企实现智能化转型

    2025年5月28-29日,九四智能(94AI)将携自主研发的"大模型联络中心"解决方案亮相大阪"2025呼叫中心CRM演示和会议"。该方案通过AI Agent技术实现从用户触达、需求挖掘到服务闭环的全流程自动化,助力企业重构客户服务与运营效率。作为智能语音领域领军企业,九四智能已在金融、电商、保险等行业积累创新实践,其解决方案支持多语种与文化适配,满足GDPR等全球合规要求。会议重点探讨了数字化转型背景下AI与CRM系统的深度融合,展示了AI在跨境场景中的语言、文化及合规优势。未来,九四智能将持续推动全球企业智能化转型。

  • 九号领跑高端智能化赛道,艾瑞权威报告见证行新格局

    艾瑞咨询报告显示,中国两轮电动车行业正经历结构性变革。九号公司凭借技术创新和精准市场洞察,持续引领行业发展:1)高端市场优势显著,4000元以上价位段连续两年销量夺冠;2)智能化转型加速,构建包含远程互联、智能防盗等功能的成熟智能出行生态;3)资本市场表现亮眼,以429亿元市值位居行业第一;4)技术布局前瞻,自主研发物联网平台并集成北斗导航、5G通信等技术,通过差异化设计吸引年轻用户。报告指出未来行业将围绕安全性提升、智能功能深化与能源系统创新三大趋势持续演进,九号公司已成为"高端+智能"电动车市场的标杆品牌。

  • 加速产业智能化发展 每日互动“可信数据空间+可控大模型”数享会成功召开

    5 月 17 日,“瓯江论数数安未来” 2025 数据安全发展大会在温州开幕,行业大咖、专家学者、企业精英相聚瓯江之畔,共商数据要素市场化配置改革的“温州实践”,共绘数据安全与价值释放的“中国方案”。作为中国(温州)数安港“九个一”基本架构之一,本次数据安全发展大会旨在深入剖析数据产业发展新趋势、新挑战、新机遇,挖掘数据在数字经济时代的潜在价值,�

  • Manus与Lovart之后,又一颠覆B2B外贸行智能体来了!信风AI引智能化拓客浪潮

    我们见过太多传统的外贸获客方式:买一份客户数据、雇几个人做电话/邮件、甚至手动跑展会、查黄页、看海关单。但这些方法普遍存在两个问题——效率低、成本高。尤其是试图开拓新市场时,语言不通、信息不全、时间滞后,成了外贸人绕不开的难题。

  • 容联云语音坐席代理:懂业务的Agent,让金融对话更有温度与效率

    容联云推出"大型语音坐席代理"解决方案,通过AI技术革新传统金融客服交互模式。该方案具备五大核心能力:1)智能理解客户意图,准确率达95%;2)强降噪处理嘈杂环境通话;3)拟人化语音交互,支持情绪适配;4)自动生成通话总结与商机洞察;5)人机无缝协作,支持多任务监控。应用场景覆盖客户服务(7*24小时响应)、精准营销(降低30%挂断率)和人性化催收(

  • 亿道三防COMPUTEX上再展风采,三防户外手机引领行业智能化新风尚

    亿道三防在2025台北国际电脑展(COMPUTEX)展示全栈三防产品,包括P1/P2 Pro三防手机和T1/T1 Max/T2 Ultra三防平板,搭载高性能处理器、多摄像头和大容量电池,具备IP68防护等级。同时推出AI工业平板EM-I14M和AI三防笔记本EM-X14M/X15M,采用英特尔Ultra处理器,支持本地AI算力。产品覆盖8-14英寸多种规格,支持多种工业接口和模块扩展,适用于智能制造、物流仓储等场景。公司将持续深耕三防终端领域,推动工业智能化发展。

  • 百度心响上线iOS版,多智能体协作应用终于卷对地方了

    今年的4月26日,我们测评了百度新发布的多智能体协作应用心响APP。当时只上线了安卓版,很多网友在线求苹果版链接。 就在这几天,iOS版也终于上线了,只需要在苹果的APP Store搜索关键词即可下载。 现在,苹果安卓用户全部免费用,完全不限量! 在第一时间体验了iOS版心响APP,我们基本上可以下一个判断:智能体应用,终于卷对地方了。

  • 英特尔考虑出售网络和边缘业务,去年营收 58 亿美金

    目前,英特尔尚未就NEX部门的未来做出最终决定,仍在评估包括部分出售或战略合作在内的多种可能性……

热文

  • 3 天
  • 7天