首页 > 传媒 > 关键词 > 云测数据最新资讯 > 正文

云测数据:助力人工智能落地,NLP这条路还有多远?

2020-05-11 11:05 · 稿源:站长之家用户投稿

工作人员齐整坐好,每个人都对着电脑全神贯注,一件又一件的“东西”在眼前划过,经过标准化处理就转到下一流程……这实际上这是人工智能行业里的数据标注办公区一角

由于深度学习的研究方向,人力密集型的数据标注工作是推进人工智能技术落地的重要环节之一。

很长一段时间以来,在过往AI的发展中数据的采集与标注行业没有过多的被收到关注,毕竟,与算法、算力这些高大上的东西相比,AI数据的生产总带着那么几分与AI技术的“科技感”截然不同的形象。

然而,随着AI的发展走向纵深,更多人发现这是一个误解,AI数据产业正在向着高专业化、高质量化的方向蓬勃发展。

根据 2018 年智研发布的《2019- 2025 年中国数据标注与审核行业市场专项分析研究及投资前景预测报告》, 2018 年该行业市场规模已达到52. 55 亿元, 2020 年市场规模有望突破百亿。有行业人士估计认为AI项目中会有10%的资金用于数据的采集和标记, 2020 年,数据标注行业最终市场规模将达到 150 亿。

而分享市场的,既有BAT、京东等互联网巨头,也有云测数据这种专注于高质量交付的专业化数据平台。

庞大的前景下,数据采集与标注也可以分NLP(自然语音处理)、CV(计算机视觉)等几个部分,随着数据需求量的增大、对数据质量要求的提高,其中的NLP越来越成为“硬骨头”,AI数据产业终将面临它带来的难题,也承袭这种难题下空出的市场空间。

AI的数据、算法和算力“轮流坐庄”,NLP到了“数据为王”的时代

芯片制程以及大规模并联计算技术的发展,使得算力快速提升后,AI能力的提升主要集中到了算法和数据上(算力提升当然还有价值,只是相对价值那么明显了,例如不可能对一个物联网终端设备有太多的算力设定要求)。

这方面,多年以来,人工智能技术都呈现“轮流坐庄”的螺旋提升关系:

算法突破后,可容纳的数据计算量往往变得很大,所以会迎来一波数据需求的高潮;而当AI数据通过某些方式达到一个新的程度时,原来的算法又“不够了”,需要提升。

2018 年 11 月,Google AI团队推出划时代的BERT模型,在NLP业内引起巨大反响,认为是NLP领域里程碑式的进步,地位类似于更早期出现的Resnet相对于CV的价值。

以BERT为主的算法体系开始在AI领域大放异彩,从那时起,数据的重要性排在了NLP的首位。

加上两个方面的因素,这等于把NLP数据采集与标注推到了更有挑战的位置上。

一个因素,是NLP本身相对CV在AI数据方面的要求就更复杂。

CV是“感知型”AI,在数据方面有Ground Truth(近似理解为标准答案),例如在一个图片中,车、人、车道线等是什么就是什么,在采集和标注时很难出现“感知错误”(图片来源:云测数据)

而NLP是“认知”型AI,依赖人的理解不同产生不同的意义,表达出各种需要揣测的意图,Ground Truth是主观的。

例如,“这房间就是个烤箱”可能是说房间的布局不好,但更有可能说的是里边太热。人类语言更富魅力的“言有尽而意无穷”的特点,应用于AI时,需要被多方位、深度探索。

另一个因素,是AI数据的价值整体上由“饲料”到“奶粉”,对NLP而言这更有挑战。

大部分算法在拥有足够多常规标注数据的情况下,能够将识别准确率提升到 95%,而商业化落地的需求现在显然不止于此,精细化、场景化、高质量的数据成为关键点,从95% 再提升到 99% 甚至 99.9%需要大量高质量的标注数据,它们成为制约模型和算法突破瓶颈的关键指标。

但是,正如云测数据总经理贾宇航所言,“图像采标有很强的规则性,按照规范化的指导文档工作即可,但NLP数据对应的是语言的丰富性,需要结合上下文等背景去理解和处理。”在高位提升这件事上,NLP数据更难。

例如,在订机票这个看似简单的AI对话场景中,想订票的人会有多种表达,“有去上海的航班么”,“要出差,帮我查下机票”,“查下航班,下周二出发去上海”……自然语言有无穷多的组合表现出这个意图,AI要“认得”它们,就需要大量高质量的数据的训练。

由此,我们再来理解商业机会。

数据采集与标注的公司有很多,从巨头的“副业”到AI数据专业化平台,总体而言主要玩家如图所示:

除此之外,更多中小玩家甚至几十人的草台班子数不胜数。在中国,目前全国从事数据标注业务的公司约有几百家,全职的数据标注从业者有约 20 万人,兼职数据标注从业者有约 100 万人。

易入门、难精通,而上述两大因素决定NLP数据面临巨大的挑战,做得好的就更少。

在数据“坐庄”NLP的大背景下,空出了大量的商业机会,而客观上的高要求阻却了大量低门槛入场的玩家,NLP数据相对于CV更像一个蓝海。

打破单纯“体力活”标签,NLP数据采集与标注从四个方面自我演进

有机会就总有人会进场,不久前,中国人工智能高峰论发布了中国人工智能科技服务商 50 强,既有商汤、旷视这种明星企业,也出现了榜单内唯一的AI数据服务商云测数据,这显示AI数据正在进入“主流圈”,在蓝海中尝试跑出独角兽企业。

当然,前提是平台能够解决好NLP数据的痛点问题。

事实上,CV的“感知”需求使得“体力活”可能就能够胜任大多数据生产工作(谁不认识一辆车、一个人呢),而“认知”的NLP数据要突围,只是“体力活”早已经不够。

至少目前来看,行业玩家在四个方面有所动作,或正在解决NLP数据痛点问题。

1、业务模式,用“定制化”迎合商业落地期的NLP

曾有媒体向Google工程师提起M-Turk的时候,他表示“我们不敢用Turk 标注”,因为回收的数据良莠不齐。

众包模式(在公开平台发布任务,自由申领)是曾经的AI数据产业主流,拥有数据丰富性和多样性的优势,不过数据质量比较难以把控。在数据精细化要求的今天,很多需求方都转向了“定制化”(一对一,以项目制的方式完成交办的数据任务)服务模式。

例如,云测数据的“定制化”服务模式,跟的就是需求方复杂、精深而个性化的数据要求。具体到NLP,在数据采集上满足特定人物(老人、妇女、小孩)、特定场景(家居、办公、商业等)、不同方言的声音/文本数据采集;在数据标注上进行需求的对接、理解清楚场景化要求再分发尽量具体的规范指导(同样一句话在不同交流目的中可能需要标注不同的内容,例如“我没钱”在信贷服务中意味着潜在客户,在理财服务中则表达拒绝的态度)。

当然,众包模式也有它的优点,能够轻量化承载大量相对简单的数据需求,而场景化的定制模式则更专业,主要依靠自有员工和基地,像云测数据就在华东、华南、华北拥有自建标注基地,这种玩法显然更适合匹配客单价更高的场景化、定制化需求,NLP是典型。

2、管理流程,从“粗放制造”到“精益制造”

既然数据采集与标注很像是工厂的流水线,那么如果要提升数据的精准度,其实就如同“制造业”升级那样需要进行“粗放制造”到“精益制造”的转变,首要体现在管理流程的优化上。

无论是从平台接取任务的众包团队,还是直接对接需求方的定制化服务平台,至少,草台班子式的做法已经不适合NLP对数据的要求。

高精准度、高效率,都依赖管理流程的优化,以云测数据为例,具体做法包括这几个大方向:

标注、审核、抽检的层层把关:标注人员的结果交由另一批人进行审核,打回不合格的,最终再由质检进行抽检,大体如此,可能步骤更复杂;

人才类型的基础分类:文本、语音、图像标注人员不相互混用;

擅长场景的优先任务派发:在同等条件下,擅长对应场景的人优先派发给任务。

例会制度:如同精细化管理的制造业一样,早会、晚会、周会、月会,总结问题、提醒改进。

……

而无论如何,管理流程的事,说得再多,日常工作的落实才是最重要的。

3、职业技能,专业培训摆脱“低水平重复”

“不要门槛”意味着更低的价值,在人员个人能力上,NLP在逐渐抛弃那些“无门槛”入局的人,尤其是在特定的场景需求下。

例如,这是一个非常简单的NLP数据标注实例:

它的需求可能只有初中语文即可。但是,NLP的数据需求早已超过这样的标注太多。

例如,客服询问用户是否购买此商品时,“我要和家人商量一下”、“我会考虑”、“我现在不方便,你一会儿再打过来”,标注人员得准确标注出暂不购买,暂不考虑,拒绝购买或者兴趣较大等多种意图。

一方面,这依赖于平台进行的场景深挖,这也是为什么云测数据智能客服单个场景的意图标注就分为10- 20 个大类、上百个子类,根据业务需求可能还会有进一步的标注细分,如此数据标注可以更细化、直达需求;

另一方面,这绕不开人员能力的持续培训,把“干体力”的标注工人转化成懂一些专业的业务人员,典型的如云测数据在金融服务领域通过几个月的专业培训,培养出销售人员视角去揣测用户话语中的意图。

举例来看,在客服沟通中,用户回馈“我在开车”这短短的一个语料数据,可能需要标记出“有车一族”、“司机”、“没有明显拒绝”、“可能有兴趣”等多个标注给NLP算法,按云测数据自己的说法,其培训达到的目标,是让标注员工达到成为专业员工的水准。

显然,在NLP标注数据的初期阶段将各大金融机构的AI客服机器人训练到大致相当的初级认知智能水平后,再进行提升、提高销售转化或者服务满意度,都需要质量更高、针对特定需求更强的NLP标注数据。

值得一提的是,在NLP领域不是所有标注都能通过人员培训来解决,医疗、法律等过于专业的领域可能还是依赖专家标注(邀请医生、律师等参与标注),那是一个更复杂的故事了。

4、工具使用,持续加码“便捷化”

工欲善其事必先利其器,NLP的标注虽然不像CV有很多空间维度的数据需求,但工具提升便捷度进而提升标准效率和准确性的价值仍然不可小觑。

这方面,巨头的脚步更早,在国外,Google Fluid Annotation一度是NLP标注“最好使”的工具,国内,大厂和专业平台的工具也被广泛使用,云测数据在工具上的创新优势很明显。

总体而言,标注工具适合自己的才是最好的。这种根据定制化需求开发贴合实际需要的数据工具对场景化数据的生产,发挥着重要作用。

无论如何,持续加码“便捷化”,是一个不会停止的过程。

NLP数据产业的机会,将会是谁坐庄?

在AI领域,虽然有大厂走在前列,但市场并没有被巨头垄断,中型AI平台也常常崭露头角成为主角。以AI数据服务领域为例,像云测数据这种专注于企业服务的第三方独立平台,以客户为中心的企业基因,一直贯穿在数据交付的始终。

一个典型的表现是,高精确度的NLP数据需要以企业服务的心态与客户仔细对接需求,例如,用户需求的场景是什么,如果是订票,AI问答应该主要导向订票,对应的NLP数据也要往这个方向去标注。

这一过程中需要数据服务人员对需求进行拆解、预判甚至提前给出建议,与客户反复沟通确认达成一致后,才能真正地去作业。大厂偏重于技术架构、前沿技术开发、云服务器中心大规模并发能力等建设,很难俯下身好好完成这件事,这时候,AI数据专业化平台更有优势。

此外,影响竞争格局走向的还有数据服务的安全性。

在数据采集与标注行业,复制一份数据在技术上非常简单,也能节省大量的人力和运营成本,但给客户带来的损失却不小(尤其是被竞争对手拿到),保证数据隐私性和安全性,在AI激烈的竞争环境下几乎成为某些客户的首要决策标准。

总而言之,高专业度、高精准度、高效率、强安全才能赢得AI数据客户尤其是NLP数据客户的选择,不论巨头还是AI数据专业化平台在行业爆发式增长的关口都在努力,落实和推进了诸多动作。NLP数据产业正处在蓝海,一个不会由巨头坐庄的蓝海。

免责声明:“站长之家”的传媒资讯页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与我们联系删除或处理。稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性,更不对您的投资构成建议。我们不鼓励任何形式的投资行为、购买使用行为。

  • 相关推荐
  • 大家在看
  • “人工智能创新大讲堂”在京开讲

    9月27日,由中国科学院人工智能产学研创新联盟举办的“人工智能创新大讲堂”系列活动的首期暨启动仪式在北京中国科学院学术会堂正式开启。“人工智能创新大讲堂”旨在通过传播、共享国内外人工智能领域新技术、新产品、新政策,提升全社会对人工智能的认知水平,让公众、企业、政府等共享人工智能发展成果,共促人工智能产业发展。本次活动由中国科学院科技战略咨询研究院副院长、中国科学院人工智能产学研创新联盟秘书长张凤主持?

  • 谷歌云人工智能预测服务全面开通

    谷歌宣布其人工智能平台的一个关键组成部分——人工智能预测服务已正式全面启动。该服务支持托管在主流的机器学习框架,包括TensorFlow、XGBoost和Scikit-Learn中。AI Prediction服务充当机器学习管道的最后阶段。它在云中托管经过训练的机器学习模型,以推断新数据的目标值。部署在AI预测服务中的经过训练的模型作为REST端点公开,可以从任何支持HTTP的标准客户端调用这些端点。AI平台预测服务基于Google Kubernetes Engine(GKE

  • 国际高性能计算和人工智能咨询委员会全力打造以数据为中心的计算生态

    网络计算成为HPC China热门话题2020 年 9 月 28 日, 国际高性能计算和人工智能咨询委员会(HPC-AI Advisory Council)第 12 届中国年会,暨中国HPC大会(HPC China)大会分论坛 — 面向高性能HPC和AI云的新一代计算技术,向广大听众和观众介绍了当前最热门的两大计算技术,以数据为中心的计算技术和网络计算(In-Network Computing)技术,这和本次HPC China大会的主题不谋而合,展示出了提升计算性能和能力、提高处理数据的效率,成为?

  • 谷歌搜索推出新的人工智能工具 可以识别糟糕的拼写

    据外媒TheVerge报道,谷歌在其“SearchOn”活动上详细介绍了一系列新功能,它将在未来几周和几个月内对其基础的谷歌搜索服务进行改进。这些变化主要集中在使用新的人工智能和机器学习技术,为用户提供更好的搜索结果。其中最主要的是:一个新的拼写检查工具,谷歌承诺将帮助识别即使是最糟糕的拼写查询。

  • SK海力士推出首款DDR5 DRAM 适用于大数据、人工智能等领域

    【TechWeb】10月7日消息,SK海力士日前宣布,推出首款DDR5 DRAM(动态随机存取存储器)。DDR5是新一代DRAM标准。SK海力士推出DDR5 DRAMSK海力士表示,DDR5 DRAM作为超高速、高容量产品,尤其适用于大数据、人工智能、机器学习等领域。SK海力士于2018年11月成功开发首款16Gb DDR5 DRAM之后,向英特尔等核心客户提供样品,并完成了一系列测试与性能、兼容性验证等程序。这一成果也意味着SK海力士在即将到来的DDR5市场随时能够销售相

  • Facebook将利用人工智能来改善可再生能源的存储

    Facebook和卡内基梅隆大学宣布,他们正在尝试利用AI寻找新的"电催化剂"。电催化剂可以用来将多余的太阳能和风能转化为其他更容易储存的燃料。然而,如今的电催化剂既稀有又昂贵,寻找新的电催化剂并不容易。研究人员目前每年可以测试数万种潜在的催化剂,但Facebook和卡内基梅隆认为,在人工智能的帮助下,他们可以将催化剂的数量增加到数百万,甚至数十亿。

  • 马上金融人工智能技术一举夺得七项权威认证

    近日,马上消费金融(以下简称“马上金融”)自主研发的 7 项人工智能科研成果,获得了中国信息通信研究院专家组一致肯定,高分通过了中国人工智能产业发展联盟权威认证。本次参评项目覆盖了马上金融在自然语言处理、语音和视觉领域的先进人工智能技术和应用场景实践,反映了马上金融在人工智能方面自主研发能力的不断提升,标志着马上金融的自然语言处理技术服务平台、中文语音合成、中文语音识别、人脸检索、人证核验、文本客服及?

  • 格力集团35亿投资小米 将围绕人工智能进行深度布局

    因为董明珠和雷军之前的十年赌约,让格力和小米这两个本来毫无关系的企业扯在了一起。据信息时报消息,前阵子转让格力电器15%股权,套现 400 多亿的格力集团转身投资了小米。

  • IBM将剥离管理基础设施服务业务 专注于混合云与人工智能

    10月9日消息,据国外媒体报道,“蓝色巨人”IBM在官网上宣布,他们将剥离旗下的管理基础设施服务业务,成立一家新的公司,IBM则会专注于混合云与人工智能业务。IBM将剥离管理基础设施服务业务部门,是4月份上任的CEO阿尔温德·克里希纳(ArvindKrishna),在给团队的邮件中宣布的,IBM已在官网公布了这一邮件。阿尔温德表示,他们已经决定,将全球技术服务部门下的管理基础设施服务业务,剥离成一家独立的公司,新公司计

  • 李彦宏:百度AI研发费用占收入19% 首提人工智能“乐高模式”

    近日,李彦宏在第三届数字中国峰会上表示,这几年来,百度不断投入巨额资金用于AI技术的研发(其中包括语音识别及合成技术、自然语言理解技术、图像及视频识别技术等大脑基础人工智能技术。 )。截至目前,百度AI研发费用占收入的比重达到了19%。

  • 原滴滴出行人工智能实验室负责人叶杰平加入贝壳找房

    DoNews10月12日消息(记者 翟继茹)12日,原滴滴出行人工智能实验室负责人叶杰平,正式加入贝壳找房,任贝壳技术副总裁、首席科学家,并将全面负责人工智能技术中心的相关工作,向贝壳找房CTO闫觅汇报。贝壳找房介绍,未来,叶杰平将带领团队进一步探索AI技术对“住”这一领域的改造可能,加速居住服务产业的数字化转型和智能化升级。资料显示,叶杰平是美国密歇根大学终身教授,是机器学习领域国际领军人物,主要从事机器学习、数

  • 三星电子2020年度人工智能论坛将于下月在线举行

    10月12日消息,据国外媒体报道,谷歌人工智能AlphaGo在人机围棋大战中击败李世石,向外界展示了人工智能的巨大潜力,人工智能技术在近几年也蓬勃发展,众多公司在大力研发人工智能技术,也涌现出了众多由机构或企业牵头举办的人工智能论坛。在人工智能论坛方面,韩国电子工业巨头三星电子也有举办,2020年度的论坛,在下月就将举办。从外媒的报道来看,三星电子已经宣布他们今年的人工智能论坛,将在11月2日至3日,以?

  • 原滴滴出行人工智能实验室负责人叶杰平加入贝壳找房 任技术副总裁

    10月12日消息,原滴滴出行人工智能实验室负责人叶杰平,正式加入贝壳找房,任贝壳技术副总裁、首席科学家,并将全面负责人工智能技术中心的相关工作,向贝壳找房CTO闫觅汇报。据了解,未来,叶杰平将带领团队进一步探索AI技术对“住”这一领域的改造可能,加速居住服务产业的数字化转型和智能化升级。相关资料显示,叶杰平,美国明尼苏达大学博士毕业,为美国密歇根大学终身教授,密歇根大学大数据研究中心管理委员会?

  • 2020中国人工智能年度评选开启,4大类别7大奖项申报正式启动

    现在,是时候从落地的角度给予AI行业年度性评价了。2020 中国人工智能年度评选开启, 4 大类别 7 大奖项申报启动从 2018 年开始,量子位的「中国人工智能年度评选」已经进行了两年。过去的两届评选,我们锁定了不少风头正盛或者极具潜力的公司,他们或是用推荐算法连接不同的商业主体,或是在生产、流转、反馈的商业全流程实现降本增效,或是软硬结合的创造全新的物种,或是借AI技术做底层实现用户体验提升。每一家,都为这个时代?

  • 原滴滴出行人工智能实验室负责人叶杰平加入贝壳找房 任贝壳技术副总裁

    原滴滴出行人工智能实验室负责人叶杰平,正式加入贝壳找房,任贝壳技术副总裁、首席科学家,并将全面负责人工智能技术中心的相关工作,向贝壳找房CTO闫觅汇报。贝壳找房表示,未来,叶杰平将带领团队进一步探索AI技术对“住”这一领域的改造可能,加速居住服务产业的数字化转型和智能化升级。

  • 赋能科技时代百业发展,AIIA2020人工智能开发者大会启幕

    人工智能作为引领科技革命的重要驱动力,已经越来越成为国家战略规划和行业瞩目的热点,开源开放更是成为全球人工智能发展的趋势之一。 9 月28—— 29 日,以“开源 开发 开放”为主题的AIIA2020 人工智能开发者大会在北京成功举行。大会依托我国科技创新中心建设的主阵地,通过聚合行业翘楚和权威声音,连接政经产学研的创新资源,推动人工智能产业为后疫情时代赋能百业注入强大力量。AIIA2020 人工智能开发者大会现场此次大会由

  • 2020人工智能峰会聚力AI!九号机器人为中国产业发展赋能

    聚力AI,加速跨产业发展!9月24日,2020人工智能峰会暨机器人产业高峰论坛在江苏常熟正式开幕,为进一步助力常熟“智能”产业造势,来自北京、上海、江苏等地区的人工智能产业链上下游企业100+家将集结于此。其中,专注于引领创新短交通与机器人产品创新和变革的九号机器人出席现场,并围绕人工智能、智能机器人技术的前沿热点、先进趋势和应用场景展开交流对话,为中国产业发展赋能!机器人产业稳中求进,九号机器人有话说机器人产业作为高?

  • 腾讯安全天御亮相2020AIIA人工智能开发者大会,内容识别能力再获权威认证

    伴随着新一代人工智能技术跃升为产业升级战略性技术,AI与作为产业发展底座的安全之间的连接与融合,成为各行业关注的焦点。9 月 28 日- 29 日,AIIA2020 人工智能开发者大会在北京召开,行业顶尖专家和前沿创新资源荟萃一堂,致力为人工智能的持续发展吸纳更多支撑动力。在 9 月 29 日举办的内容安全分论坛上,腾讯安全天御内容识别服务系统V5. 0 凭借其在内容识别服务方面的功能优势与模式创新,成功获得由中国人工智能产业发展?

  • 币安区块链研究院“星火计划”将提供美国斯坦福大学人工智能课程,由教育机构Shorelight共同引入

    星火计划「数字新基建课程倡议」简介2020 年 6 月 ,币安中国区块链研究院启动重要战略项目“数字新基建·百城千企星火计划”,旨在连接全球资源,积极响应中国政府号召,布局区块链、人工智能、云计算以及大数据等新基建相关领域。9 月 18 日,由币安中国区块链研究院、临港区块链技术研究院、亚马逊AWS和数字投行FINWEX联合主办的IFIC上海峰会、第一届数字新基建创新大赛奠定了“数字新基建”相关活动的重要基础,更是汇聚了重量

  • 聚数据人才,助产业腾飞——2020 CCF大数据与计算智能大赛北京起航

    10 月 13 日,中国计算机学会(CCF)主办的2020 CCF大数据与计算智能大赛(2020 CCF BDCI)在北京正式启幕。本次大赛将携手高校、名企、专家及DataFountain平台等多方力量,关注技术发展与人才培养,助力推动我国大数据技术及产业生态发展。为进一步扩大参与规模及影响力,2020 CCF BDCI联合CCF大数据专家委员会、CCF自然语言处理专业委员会、CCF数据库专业委员会、CCF高性能计算专业委员会、CCF人工智能与模式识别专业委员会、CCF

  • 参与评论
文明上网理性发言,请遵守新闻评论服务协议
  • 热门标签

热文

  • 3 天
  • 7天