首页 > 传媒 > 关键词 > 腾讯优图最新资讯 > 正文

腾讯优图实验室AI手语识别研究白皮书

2019-05-20 14:07 · 稿源:站长之家用户投稿

 近日,腾讯优图实验室在攻坚AI手语识别上取得了突破性进展,推出“优图AI手语翻译机”,旨在通过AI技术缓解听障人群的沟通障碍问题,同时发布《腾讯优图实验室AI手语识别研究白皮书》,对当下听障人群痛点、技术研究现状进行分析,并对优图AI手语翻译机的技术研发展开深入解读,助力AI手语识别技术的进一步发展。以下是白皮书的全部内容。

  前言

  据 2017 年北京听力协会预估数据,我国听障人群数量约达到 7200 万。放眼世界,世界卫生组织发布的最新数据显示,全世界有共计约4. 66 亿人患有残疾性听力损失。尽管听障人群能够凭借手语进行交流,但在机场、民政等公共服务环境中仍然面临沟通障碍等一些亟待解决的问题。

  秉承“科技向善”的技术价值观,腾讯一直致力于通过AI等技术手段解决人类面临的社会问题。我们相信,科技能够造福人类,人类应该善用科技,努力去解决自身发展带来的社会问题。作为国内计算机视觉人工智能领域的领先研究团队,腾讯优图实验室近日攻坚AI手语识别并取得突破性进展,自研出一套基于结构化特征学习的端到端手语识别算法,能够识别日常手语并快速运算出结果并把手语翻译成为文字,有望为听障人群正常交流提供更多便利。

  目前,腾讯优图实验室已经与深圳市信息无障碍研究会达成合作,并于近日正式发布“优图AI手语翻译机”,探索在机场、高铁、民政等公共服务场所提供手语翻译服务。未来,腾讯优图希望能通过与听障者或手语使用者的深入接触,扩充数据容量,完善数据规范,根据不同的场景优化识别算法,搭建出通过手语与听障人士无障碍沟通的完整系统和平台,用AI消除障碍,做有温度的科技、无差别的科技。

  一.潜在需求分析

  (一)听障人士数量已达 7200 万

  信息的接收与传递是包括人类在内的任何有机体与世界最为基本的沟通方式,而对于听障人士来说,他们失去了听力这个认识世界最为重要的感知途径。世界卫生组织最新数据显示[世界卫生组织官网最新数据],目前全球约有4. 66 亿人患有残疾性听力损失,超过全世界人口的5%,估计到 2050 年将有 9 亿多人(约十分之一)出现残疾性听力损失。据北京听力协会 2017 年公开数据,估计中国残疾性听力障碍人士已达 7200 万[北京听力协会 2017 年预估数据],相当于北京市常住人口(约 2200 万, 2015 年数据)的 3 倍多,是我国少数民族人口中最多的民族壮族(约 1500 万, 2015 年数据)的近 5 倍,这其中还不包括轻中度听损的人口。

图片8.jpg

  (数据来源:世界卫生组织官网)

图片9.jpg

  (数据来源: 2017 年北京听力协会预估)

  (二)无障碍普及率有待提升,听障人群需求被忽视

  《 2017 年百城无障碍设施调查体验报告》显示,我国无障碍设施整体普及率仅为40.6%[数据来源:《 2017 年百城无障碍设施调查体验报告》],除了普及率较低,还存在部分无障碍设施被占用、维护不到位、设计存在问题等情况。而与其他残障人士不同的是,在现实生活中,听障者除了使用手语交流以外,与普通人几乎没有区别,这也正是听障者容易被忽视的原因之一。目前的公共环境设施、产品设计等往往忽略了听障者的特殊需求。听障者面临的不仅仅是日常交流上的障碍,更多的是沟通障碍所衍生的诸多不便。

图片10.jpg

  (听障人群痛点分析)

  《光明日报》的一篇报道曾指出[报道内容来源:光明日报http://epaper.gmw.cn/gmrb/html/2015-01/17/nw.D110000gmrb_20150117_1-10.htm],因为沟通障碍,绝大部分的听障者都生活在自己封闭的小世界里,社会活动参与度极低的他们往往会感到孤独。虽然受过教育的听障者也能够使用文字进行交流,但是对于他们来说,手语是更易于使用和接受的交流方式,而我国目前致力于听障者专业服务的人士只有大约一万名,大部分公共服务并没有配备专门的便利设施,这些都是听障者长久以来面临的迫切需求。

  科技的进步为大众生活带来诸多便捷,而对于愈发庞大的听障人群,他们的生存状态需要得到社会的更多关注,他们迫切需要前沿科技为他们解决交流障碍带来的诸多不便。

  二.手语表达与AI技术结合的行业探索

  (一)各研究机构展开探索尝试,技术落地存在诸多因素限制

  手语翻译的核心技术是手语识别(SLR)。这个技术就是指通过计算机算法,自动区分手语表达中的各类手势、动作以及这些手势和动作之间的切换,最后将表达的手语翻译成文字。传统的方法通常会针对特定的数据集设计合理的特征,再利用这些特征进行动作和手势的分类。受限于人工的特征设计和数据量大小,这些方法在适应性、泛化性和鲁棒性上都非常有限。

  近年来,大数据和深度学习极大推动了人工智能算法的发展,尤其体现在计算机视觉、自然语言处理和音频处理等领域,这助推了AI算法在许多应用和场景中实现落地,许多研究员和工程师也开始尝试运用深度学习和数据驱动的算法来解决SLR的问题。然而不同于大部分的计算机问题,手语特有的地域性、复杂性和多样性,不仅增加了数据采集和清洗的难度和成本,也使得这门技术哪怕在深度学习的帮助下也依然存在很大的挑战,难以被实际应用。

  目前,有研究机构或单位针对解决听障人群沟通问题的技术研究,但研究方向多集中在将文字转化成手语方向,而“针对听障人群的手语识别转化成文字”的方向因为技术难度极大,尚鲜有技术方案落地。

  (二)腾讯优图自研手语识别算法,推出“优图AI手语翻译机”

  腾讯优图结合听障人士手语表达的习惯采集了手语数据,利用前沿的图像序列分析技术自研了一套手语识别算法,推出“优图AI手语翻译机”。AI手语翻译机以普通摄像头作为手语采集装置,依托高性能计算机进行后台运算,能够实时地将手语表达翻译成文字。对于用户而言,不需要携带任何额外装置,只要面对摄像头完成正常的手语表达,就能从翻译机中得到反馈回来的识别结果。

  三.优图AI手语翻译机技术解读

  (一)算法优势

  相比于此前的手语识别相关的产品和技术方案,我们的手语识别算法主要能够实现以下几点优势:

  1.基于纯RGB图像序列

  手语表达极具复杂性,一个手势或者动作幅度的小变化就可能会造成表达意思上很大的不同。因此,之前的很多产品或方法往往需要借助于一些额外的设备,例如使用Kinect摄像机的多种传感器来提前获取手语表达者的肢体关节点信息,又例如在手上携带传感器手套、或配备EMG、IMU传感器的手环来获取手臂和手掌的活动信息。这些额外的设备无形之中增加了使用的门槛,同时也带来了一定的不便利性。

  与此不同,我们的翻译机不需要任何额外设备的帮助,用户只需要一个普通的摄像头(如手机摄像头或普通网络摄像头)对手语表达者的表达过程进行拍摄,翻译机就可以完成识别翻译的过程。

  2.支持多样性表达

  手语极具地域性和多样性。地域性即指不同地区(如深圳和广州)对同一个词可能存在不同的表达方式,同时由于个人习惯,即便是在同一个标准下,动作的呈现也可能不尽相同。多样性则体现在手语表达中,同一个动作在不同的语境之中可能有着非常不一样的意义,而同一个词在不同的语境中又可以使用不同的动作进行表达。尽管这些情况非常常见,多样性的问题在之前的产品或方法中是没有被考虑进去的。

  我们首次将多样性的问题考虑到了算法识别的过程中,支持常见的多样性表达,用户不需要针对翻译机学习某种特定的词与动作之间的映射,根据自己平时的表达习惯进行表达即可。

  3.灵活的整句识别

  听障人士进行手语表达往往以句子为单位,表达完一个完整的句子之后才会出现停顿,在一个句子的不同词之间很少会做停顿。然而之前的许多产品或算法实际上是以词为单位进行识别的,需要在词与词之间做出明显的停顿。另外为了能够将语句进行划分,还可能需要设定特定的起始动作和结束动作,在每次表达开始和结束时作为信号语句划分的信号。这限制了使用的灵活性和流畅度。

  与此不同,优图AI手语翻译机能够实现整句的识别和翻译,用户表达的时候可以连贯将整个句子表达完。也不需要设定特定的结束或起始动作,而是直接对用户的动作与否进行判断。

  (二)实现方法

  与听障人士手语表达高度符合的数据集、先进的手语识别算法是翻译机得以实现的有力支撑。

图片12.jpg

  (手语识别算法总体框架图)

  1.更大更全的手语识别数据集

  我们通过与社会相关机构和听障人士的接触了解了手语表达的特点,并根据这些特点采集了自己的手语识别数据集。同时对数据进行进一步的分析和归纳,目前,AI手语翻译机的数据集覆盖了近千句日常表达, 900 个常用词汇,是最大的中文手语识别数据集。

  不仅如此,采集数据集还考虑了手语的地域性和多样性表达,包含了不同的表达习惯和速度。这为进一步提升我们算法的泛化能力提供了很好的基础。

  2.更强大的特征提取器

  为了能够在手语极具复杂性的表达中充分提起识别所需要的特征信息,我们结合了普通2D卷积网络和3D卷积网络的优势,通过2D卷积网络来提取手语中的手势和身体姿势等静态信息,同时通过3D卷积网络来提取手语中普遍存在的细微而快速的变换动作的动态信息,最后将这两个信息相结合,产生我们最后的特征表达。

  静态和动态信息的结合形成了很好的互补,同时避免了信息过早的流失,在我们的实验中对我们识别效果的提升很有帮助。在充分利用了视频中的动、静两种信息之后,我们的算法也得以能够利用单纯的RGB视频图像就达到识别的目的,不需要借助额外的传感器设备。

  3.句子表达中挖掘词级信息

  虽然听障人士在进行手语表达的时候是以句子为单位的,但是句子又是由不同的词语组合而成的,因此从语法上来说,词才是手语的最小表达单元。与此同时,一个词语的表达往往不是一个单一的动作和手势,而是一些手势和动作的变换,这个过程有长有短,之间也没有刻意的停顿,因此往往掩盖在了整个句子的表达之中。

  为了将这些词语表达的信息挖掘出来,我们的算法在视频帧与最后的输出之间加入了词级信息提取单元,词级信息提取单元利用长短时网络充分考虑特征提取器所提取出的信息,并结合视频中相邻的信息计算出词级的特征表达。这个单元帮助我们的算法能够更好地在句子中找到词语表达的边界,并提升对各种地域性表达的总结能力。

  4.单句切分并充分考虑句中上下文信息

  我们的算法在提取词级信息的基础上还会充分将整句中的上下文信息进行综合考虑,然后再输出最后的识别结果。这对识别手语中的多样性表达非常重要,因为同样的动作只有放在上下文的语境中才能最后确定它的意思。

  同时,为了减少用户在使用过程中的限制,我们在手语识别之前加入了人脸检测和动作检测两个模块,用人脸检测确定手语表达者的位置,然后用动作检测判断他是否在做手语表达。三个模块协同合作,最后让翻译机能够自适应地找到用户的位置,并连贯识别用户的一系列表达。

13.jpg

  (与其他算法在两个公开手语识别数据集上的性能对比,数据显示的是词错率(WER),越低越好)

  (三)落地条件限制及应用方向

  就目前来说,优图AI手语翻译机仍处于实际应用探索阶段。主要受三个问题限制,一是需要高性能计算机,二是复杂环境背景的适应性,三是语料库进一步拓展。

  因此,我们将进一步探索在一些公共事务场所如机场、民政等公共服务领域等提供无障碍沟通解决方案,方便听障人日常交流提供便利。

  四.意义和愿景

  优图AI手语翻译机是腾讯优图基于先进的动作识别和视频分析算法对手语识别技术的一次扩展和优化。我们始终相信,作为AI技术的探索者,解决和优化技术难题是团队应肩负的责任和担当,创造和传播AI的价值和温暖是团队应秉持的使命和信仰。

  我们将在未来对我们的AI手语翻译机进行持续的升级和优化,让AI手语翻译机走进听障人士的生活,在日常服务窗口、手语教育等场景中为听障人士带来实实在在的便利。我们希望以手语翻译机为媒介,深入接触听障群体,进一步了解手语和优化我们的数据和识别算法,使我们的翻译机能够覆盖更多的表达和场景。我们更希望我们的AI手语翻译机能够助力手语的普及和规范,增加社会对这个群体的关注度,帮助听障人士更好地融入社会,让他们能够和我们一样,更好地享受和体验技术创新和科技发展所带来的红利。

  实际上,这并不是腾讯在AI+无障碍建设上的首次尝试,腾讯一直在坚持推动“一个都不能少”和“信息无障碍”理念的传播与落地。 2018 年 12 月 3 日,腾讯获得了“联合国教科文组织数字技术增强残疾人权能奖”。

  腾讯自 2009 年起在信息无障碍方面率先展开探索,截至目前,旗下QQ、QQ空间、微信、腾讯网、腾讯新闻、应用宝、企鹅FM等大部分产品已针对障碍用户实现专门优化。腾讯旗下各类产品从社交、娱乐、新闻等多维度出发,共同努力,为障碍人士构建友好的信息社会。

  感谢深圳市信息无障碍研究会及所有参与此次优图AI手语研究项目的团队和个人。

免责声明:“站长之家”的传媒资讯页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与我们联系删除或处理。稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性,更不对您的投资构成建议。我们不鼓励任何形式的投资行为、购买使用行为。

  • 相关推荐
  • 大家在看
  • 腾讯广告"去掉广告"

    尽管 2018 年前后整个移动互联网圈就在高喊“流量枯竭”“红利消失”“下半场真的来了”,但不得不承认即使在整体流量增量有限的这几年,仍然有人能盘活存量、异军突起。

  • 腾讯回应与滴滴合作:滴滴提供服务,腾讯地图提供平台

    针对媒体报道的腾讯与滴滴合作推出打车业务一事,腾讯方面回应称:腾讯地图聚合打车业务是与滴滴深度合作,滴滴提供出行服务、安全调度等打车技术方案,而腾讯地图作为用户流量场景,最终流量导给滴滴。

  • 围棋大师阿里,产品经理腾讯

    长期以来,作为中国互联网行业最头部的两位选手,阿里、腾讯一直被拿来比较。外界喜欢拿着不同的标准、从不同角度观察、衡量这两家明星企业。

  • 我们要怎么向微商学直播?!腾讯总监的深度分享

    ​在微信生态内研究新玩法时,必定会绕不开微商。发展至今,无论我们如何看待,每逢微信生态内新趋势、新机会出现时,都在或多或少借鉴他们的策略。如过去的社群、朋友圈带货、社交电商,及今天仍处红利期的直播卖货。腾讯直播总监刘硕裴近期就在关注这一话题。见实也因此邀请刘硕裴于见实 2020 大会的私享会环节就此做深度分享。

  • 腾讯:WeChat可能无法在美国获得新用户

    9月20日,腾讯控股有限公司在官网发布公告称,由于美国商务部日前颁布的限制令,该公司旗下产品WeChat可能无法在美国获得新用户,且现有的美国用户在使用及更新时也可能受到负面影响。公告中还表示,腾讯将继续与美国政府及其他利益相关方进行磋商,以达成长远解决方案。

  • 有赞与腾讯广告启动“烽火计划3.0”

    有赞昨日宣布联手腾讯广告启动“烽火计划3.0”,从昨日起至11月30日,面向全国招募社交电商营销实践者。

  • 腾讯金融是什么?官网上有那些业务?

    说到腾讯,相信大家并不陌生。但是说到腾讯金融科技,或许还有很多小伙伴会觉得有点迷茫,不知道这个腾讯金融科技是什么,更不知道腾讯金融官网上都有哪些业务。跟着小编一起来了解下吧。1、 腾讯金融是什么?腾讯金融全称为“腾讯金融科技”(Tencent Financial Technology简称“FiT”),是腾讯公司提供移动支付与金融服务的综合业务平台。前身为于 2005 年成立的“财付通”, 2015 年 9 月正式升级为腾讯金融科技。秉承合规、精品?

  • 斗鱼虎牙宣布合并 腾讯成控股股东

    12日,虎牙直播和斗鱼直播联合宣布已经与Tiger Company和Nectarine Investment Limited签署最终的合并协议。合并完成后,虎牙、斗鱼将分别持有合并后公司约50%的股份,腾讯将拥有新公司67.5%投票权,成为控股股东。此外,虎牙现任CEO董荣杰和斗鱼现任CEO陈少杰将担任合并后新公司的联席CEO。如果过程一切顺利,交易最终将在2021年上半年完成,随后,斗鱼将从纳斯达克退市。(完)

  • 腾讯正式关闭微博:再见了!

    10年了,腾讯终于还是走出了这一步,正式宣布放弃微博业务。今天,腾讯正式宣布,旗下微博官网宣布已于2020年9月28日晚23时59分停止服务和运营,目前用户无法登陆,不过大家可进行个人微博内容

  • ​腾讯电商卷土重来:这次不太一样

    几年前就为人所知的“私域流量”,又热闹地进入人们视线。不断开放的小程序功能、插件成为商家企业们线上渠道的得力助手。

  • 腾讯已全资持股虎牙 后者或为合并后公司的主体

    天眼查信息显示,近日,广州虎牙信息科技有限公司发生股东、企业类型等多项工商变更。其中,原股东广州华多网络科技有限公司、广州沁绿投资咨询有限公司退出,新增股东为林芝腾讯科技有限公司,持股比例为100%。 同时,企业类型由其他有限责任公司变更为有限责任公司(法人独资)。

  • 重磅!杨格|腾讯QQfamily智能门锁全国启动大会将于10.15在深圳腾讯总部盛大召开

    随着 5G商用网络的全面布局和人工智能的高速发展。智能产业俨然成为增长最快的风口产业。站在时代的风口,抓住机遇就等于抓住了未来。智能门锁作为智能产业中“入口级”产品,自然是智能生态领域不可或缺的应用工具。杨格作为专注于智能门锁20年的行业领袖标杆,以“一生做好一件事,专心做好智能锁”为核心理念,为人类构建美好智能生活为奋斗愿景,定位全球智控门锁专家,一直以前瞻战略眼光布局未来,早在今年4月,杨格就与腾讯

  • 腾讯携手虎牙成立安全联合实验室

    DoNews10月10日消息(记者 程梦玲)10月10日,虎牙公司与腾讯云、腾讯安全共同宣布成立安全联合实验室。双方将融合腾讯在云服务器底层算力、内容风险识别、反欺诈和威胁情报等方面的技术能力优势与虎牙公司在内容风控、安全攻防和直播业务场景的实战积累,围绕AI安全应用、黑产打击、安全攻防、数据标注、人工审核等多个领域展开技术交流与业务合作,共同建设AI智能审核平台及安全攻防机制,并以AI安全能力的应用扩容,在虎牙直播?

  • 联姻近了!腾讯全资控股虎牙,与斗鱼化敌为友?

    虎鱼合并,又有新消息传来!近期腾讯对虎牙实现了全资控股、斗鱼消除被执行人影响,这些动作让许多看客们兴奋起来,年底完成合并的传闻也愈演愈烈。

  • 腾讯月饼曝光:简单得像一块“砖” 员工吐槽

    9月22日,今天腾讯曝光了自家的中秋月饼,包装盒像极了一块“砖”,颜色青灰色,摸起来也略带粗糙。这份月饼也遭受了自家人有史以来最猛烈的“吐槽”,有腾讯员工感叹:今

  • 斗鱼、虎牙合并板上钉钉!腾讯已全资持有虎牙

    腾讯一直在推动中国两大直播平台虎牙和斗鱼的合并事宜,9月18日,腾讯已100%持股虎牙。现在看来,斗鱼与虎牙的合并已经毫无悬念了。腾讯对虎牙的投资早在2017年就已经开始布局,今年4月份,腾

  • 腾讯控股拟增持10%环球音乐股权

    据彭博援引知情人士报道,腾讯控股计划在选择权 1 月份到期之前增持10%的环球音乐股权。腾讯可能会在年底之前行动。

  • 腾讯“场景”三连升,“交易场”不止于交易

    “腾讯既是社交场、内容场,更是交易场”。当腾讯公司高级副总裁林璟骅在“2020 Tencent IN 腾讯智慧营销峰会”上提到“交易场”概念的时候,似乎并没有人能够立即跟得上他的思路。

  • WeChat可能无法在美国获得新用户 腾讯官网公告全文

    【WeChat可能无法在美国获得新用户】对美商务部禁令, 9 月 20 日,腾讯控股有限公司在官网发布公告称,由于美国商务部日前颁布的限制令,该公司旗下产品WeChat可能无法在美国获得新用户,且现有的美国用户在使用及更新时也可能受到负面影响。

  • 成交才是私域的核心!腾讯广告看到"交易场"新现象

    ​最近数周,腾讯以前所未有的力度力推“交易场”概念,升级全线产品助力企业线上生意之余,马化腾也撰文深度讨论起这个新浪潮——腾讯期望做的不仅仅是无数企业数字化转型的助手,更期望成为“商业增长伙伴”。

  • 参与评论
文明上网理性发言,请遵守新闻评论服务协议
  • 热门标签