首页 > 业界 > 关键词 > AI最新资讯 > 正文

我在大厂训练AI:用鼠标拉框,一次赚3分钱

2021-05-06 08:47 · 稿源:刺猬公社公众号

声明:本文来自于微信公众号刺猬公社(ID:ciweigongshe),作者 | 刘鑫编辑 | 园长,授权站长之家转载发布。

完全就是民工了,这不是调侃。

刺猬公社和何信通话的时候,他正在做数据标注的工作。

电脑屏上的图片里,三三两两的人在操场上,或是在跳绳,或是在围观。何信要做的是用鼠标将正在跳绳的人框出来。“说出来你可能都不相信,就是画这一个框。”何信解释道,“好比你现在打开电脑,然后摁住鼠标右键拉一下,在桌面上就是一个框就是3分钱。”

图片

何信在做数据标注工作,何信供图

何信做数据标注的工作有一年多,他自己成立了一个创业小团队,团队里有十几个人。他们的项目涉及百度、网易、阿里等互联网大厂,他也做细致的“打点”工作,类似一个鞋的边框打点一周,二十几个点,挣一到两角钱。

“阿里众包、京东微工、百度众测、有道众包……”市面上这样的产品有很多,利用碎片化时间获得收入、操作简单无门槛是它们最主要的卖点。这类互联网大厂推出兼职平台,主要以众包的形式给用户分配任务,用户通过完成任务来获得报酬。但相较这些大厂的知名产品而言,兼职平台们的下载量并不高。

刺猬公社查询产品下载量统计平台七麦数据后发现,AppStore中阿里众包、腾讯搜活帮、京东微工、百度众包等四款产品,近30日日均下载量未超过2000。

图片

图源:七麦数据 查询时间:2021年4月27日

从产品数据上看,互联网大厂的兼职App只能说不温不火。在灵活用工、兼职经济高度发展的当下,这类兼职App为什么没做起来?都是谁在做这份工作?

收益太少,羊毛难薅

互联网大厂出品的兼职APP中,运作流程是:平台发布任务,用户领取任务验收后获得收益。综合各平台来看,主要有数据标注、数据采集、数据转写工作。细分到具体领域,又分为文本、图片、语音、视频等部分的信息处理。任务的价格一般在0.1元到几十元不等。

在腾讯搜活帮里,李元接了十几单任务,赚了不到两块钱。

放弃倒不是因为钱少,而是因为这份工作过于机械化,重复性劳动让李元很不适应。他大学读的是电子信息工程专业,毕业后工作也比较清闲。出于赚钱和打发时间的目的,李元下载了这款众包类型的软件。

众包,通俗来讲,就是从大众那里寻找资源。它本意是指一个公司或机构把过去由员工执行的工作任务,以自由自愿的形式外包给非特定的(而且通常是大型的)大众志愿者的做法。

以京东微工的数据标注为例,在最新一期的任务里要求对文本进行情感判断,根据自己的认知选择文本是正向、中性还是负面。该结算两分一条,以10条为结算单位,要求正确率100%。

图片

图源:京东微工

数据采集一般为音频、图片、视频方面的采集,周舟热衷于做数字采集方面的工作,2019年高中毕业后,他开始尝试这方面的兼职工作。两年的时间,他陆陆续续赚了3000多。“我也没有天天去看,阿里众包在年终、年初、年底的任务很多。”

在每个任务里,都有明确的要求,周舟认为这样很明确,可以很快地分辨哪些好做哪些不好做。

图片

图源:阿里众包

相比于数据标注、采集方面的工作,数据转写的门槛稍微高些。所谓的数据转写,主要是各种语言转译工作,比如,在有道众包的少儿英语段音频转写里,要求口误重复、语法错误等如实转写,这对于答题者的英语水平要求不低。

图片

图源:有道众包

为了确保用户所提交产品的质量,除了在提交内容上有所要求,在用户提交前也有所培训。在腾讯搜活帮里需要首先进行考试,考试通过后方能进行答题。周舟曾经做过这类型的考题,做完20道题,正确11道,他得出了结论——裸考必挂。

李元参加这种考试,也没有一次就过的情况,“这种题目需要耐心和比较细腻的语感,而我是那种粗枝大叶的人,而且多次失败之后带来的挫败感太糟糕了。”

图片

图源:腾讯搜活帮

等平台发任务——做任务——等平台审核是这类众包软件使用的常规流程,而在这些流程里有任何一个环节脱节,都会带来不好的用户体验。

下载软件发现无任务可做,做任务时发现门槛过高,任务完成发现审核太久,审核后发现正确率不合格……在这条任务链里,用户会遭遇各样的问题,有网友在五个任务都审核失败后发文称“费力不讨好。”

部分平台审核不合格后,价格会打折扣。但还是有人赚到钱了,在有道众包的3月酬劳排行榜上,第一名酬劳1945.99元。周舟对于自己两年多攒的3000多元表示满意,“因为目前还是在校生,没有工作。”

“一小时10元吧。”何信评估了一下做众包工作的平均报酬。

用户下沉,也在内卷

兼职众包的平台用户,有一种团队化的趋势。

就目前市面上的众包产品来看,任务很多是不定期推送的,新用户注册后平台上有可能面临无任务可领的情况,而相较于加公会做团队而言,普通用户赚的钱是很少的。

而这份工作的主力,互联网巨头们可能也并没有瞄准客户端的普通用户。据何信了解,向他这样做团队接项目的同行有不少,在平台活跃着的也有很大部分是像他们这样的团队。

相比于单独个人当兼职做,团队化容易的多。价格在近些年也有了不小的变化,以前价格很贵,现在的价格越来越低,由此带来用户的不断往下沉淀。何信表示用户下沉是要找便宜的劳动力。

2016左右,那时候做数据标注的人还不是很多,何信说那时候价格是目前两到三倍,画一个框大概七八分钱。

“以前做的人少就挣钱,现在做的人多了就不值钱了,就这个意思。”兼职众包的用户们,也在不可避免地遭遇内卷。

在何信团队里,一个成熟的员工一小时能画600个框,按照一个框3分的标准,能赚18元。“但是这个价格是我完全不赚钱。”何信说。而3分的价格在面向用户的平台里很少出现,在用户平台端三分的价格算是很高的。何信找的熟人介绍做项目,一般接一个项目几千上万的量,然后做上一个月。

这个行业流动性很大,重复性劳动和越来越低的价格让很多人止步于此。何信的团队不算大,上个月还是五六个人。来的员工一般都是学生,兼职在做这份工作。五六个兼职的同学才能留下一个,何信对自己团队流动习以为常。

“一开始不熟悉业务,做不了那么快,几乎就赚不了什么钱,完全看自己做的数量。”何信解释团队流动大的原因。

除了数据标注,何信的团队也做过涉及语音转义、数据采集等方面的工作,两三岁孩童的语音、粤语、陕西话的转义他们都做过。语音转义一般来说三分钟能给到七块左右,数据采集工作相对来说赚的更多,但过于费时费力,这块业务也慢慢搁下了。

“车道线、车、人脸,人体……”何信做的数据标注类目有很多,但都是二维的。数据标注的同行们有的在做三维标注,这样的工作日薪能达300元左右。

图片

图源:百度众测

但这样的薪资并不是普遍化的,简单重复性的二维图片数据标注工作薪资并没那么可观。

小作坊的出现,是数据标注团队的一个大趋势。何信对于这份工作的人有大概的画像。在城乡结合部,或者乡村小作坊,有那么一批人,二三十岁,学历不是很高,就在县城做这样的工作。而很多人也有投资这种数据小作坊的打算。

“我就形容它是网络时代的那种手工作坊。”何信对这种城乡结合部的小作坊下了一个定义。

“网络时代的民工?”

“完全就是民工了,这不是调侃。”

互联网大厂,为什么需要人兼职训练AI

“训练AI啊。”

何信很明确的知道自己所做的工作,电子信息工程专业的李元也知道这份工作的意义,“平台给你提供的题目相当于是一个训练的样本。所有你做的题目就是AI的训练集,它会通过人类的这种思维判断去训练AI。”

“能知道的只有他(平台)告诉我的。具体数据去哪了,用于什么了,没有去深究。”周舟只知道平台告知的信息,在阿里众包的一个任务中显示,您接受的任务中涉及对个人信息的收集,任务发布者承诺在此任务中收集到的个人信息将会用于“算法训练——牙齿病种识别”的目的,并仅限于任务发布者使用,并不向任何第三方转让、共享以及披露,匿名化或去标识化的除外。

图片

图源:阿里众包

“我们要教机器认识一个苹果,你直接给它一张苹果的图片,它是完全不知道这是个什么东西的,需要现有苹果的图片,上面标注着“苹果”两个字,然后机器通过学习了大量的这类图片,才能认识苹果,其中将图片表示为“苹果”的工作就是数据标注。”

腾讯搜活帮用上述例子,说明了数据标注的意义。数据标注员的工作就是在教机器学习。

人工智能包含着机器学习,而监督学习是机器学习的一种训练方式,通俗来讲,是要给机器一种标准答案来不断进行训练,以此来达到人类一些识别认知的能力,这也是深度学习的一个目标。深度学习的成功所依赖的既不是算法,也不是计算能力,而是训练和验证数据的可用性,这些数据最终是通过人的参与获得的。

这是一个非常重复性的劳动,因为机器学习需要大量的样本,大量的样本是由无数重复性劳动所造就的。

而这种重复性劳动在很早之前就有了。2003年,一款“ESP游戏”就用了这种劳动,它的目的是通过互联网上人们的自由参与来获得描述图像的标签。在一个游戏中,两个玩家在屏幕上看到相同的图像,并被提示输入描述该图像的关键字。他们看不到对方正在键入什么,但如果两人输入相同的关键字足够快(“匹配”),他们就会得到分数。实际上,这些关键字可以用作图像的精确标签。“ESP游戏”后来被谷歌收购,被称为谷歌图像标签。

不止人工的重复性劳动,验证码也是训练机器的一种方式。验证码本身是在人机交互中构建,以验证用户实际上是“人工用户”的工具。reCAPTCHA公司扩展了这一原则,将人类用户的反应重新用作工业深度学习项目的培训数据。为此,用户需要解决一个小任务,如图像识别或文本识别,这对人类来说是一个低的障碍,但对计算机机器人来说是一个高的障碍。而reCAPTCHA也被谷歌收购了。

科技自媒体“品玩”曾报道过类似的现象,验证码越来越有内容,比如标注门牌路牌,让用户帮分类数据库等。“品玩”也指出在 reCAPTCHA 官网上,Google 公开说明了 reCAPTCHA 集众人之力标注数据,训练 AI 的“众包”模式。

图片

网络中识别图片的验证码

捕获人类的认知的方式已经不再局限于众包中的重复性劳动,将人类的认知嵌入到计算机网络中,让人和机器的关系更加密切,而这种隐性的认知捕获在互联网的各个角落都在发生着。

在重复性劳动不断减少的当下,何信准备谋求新的出路。他的同行朋友们已经开始在做简单的数据AI,让简单型的数据标注工作交给机器来操作。

用机器做出来的训练集来训练机器,是一个有意思的事情。

在城乡结合部,一批二三十岁的人正在批量生产着AI训练集,重复是他们工作的常态。也正是因为如此,工作枯燥、报酬微薄,充斥着“训练AI”任务的众包兼职平台相当乏味,劝退了不少被兼职平台大厂背景所吸引的用户。

而随着AI和机器的不断自我训练和进化,AI训练AI就在不远的未来,这类平台的未来可能性将会更小。

备注:以上何信、李元、周舟均为化名

参考资料:

《Human-aided artificial intelligence: Or, how to run large computations in human brains? Toward a media sociology of machine learning》,Rainer Mühlhoff

这篇文章对你有价值吗?

  • 相关推荐
  • 大家在看
  • 人工智能进行时—王者荣耀助力产学研 共享AI新生态

    生物的进化的速度要以百万年的时间来计算,而人工智能却在以肉眼看得见的速度进化。半个世纪前,人类需要使用一部重达 1270 公斤的电脑对抗国际象棋大师时,不会想到在半个世纪后的王者荣耀中,AI可进化至职业电竞水平,这就是王者荣耀的AI——「绝悟」,「绝悟」从离线的玩家对局样本进行模仿学习,为了突破上限,又采用了AI自对弈的强化学习,然后在“绝悟挑战”中测试强度。王者荣耀执行制作人,腾讯天美L1 工作室总经理黄蓝枭?

  • 欧盟起草的人工智能政策旨在控制大技术

    周三,欧盟宣布了新的人工智能条例草案,限制了政府和企业如何使用人工智能在道德上更加可疑的方面。积极地试图监管人工智能用于邪恶的用途,欧盟的规则草案将禁止"人工智能系统被认为是对人们的安全、生计和权利的明显威胁。"拟议的规则将对各种使用案例产生深远的影响,包括自动驾驶汽车。据报道,苹果正在研发一款"苹果汽车",这是一款自动驾驶电动车,预计将于2024年至2028年期间推出。据报道,这些政策还将对执法人工智能进行

  • 人工智能算法帮助揭开量子系统的物理学基础

    来自布里斯托尔大学量子工程技术实验室(QETLabs)的科学家们开发了一种算法,为量子系统的基础物理学提供了宝贵的见解:为量子计算和传感的重大进展铺平了道路,并有可能翻开科学研究的新一页。在物理学中,粒子系统及其演变是由数学模型描述的,需要理论论证和实验验证的成功互动。更为复杂的是对粒子系统在量子力学水平上相互作用的描述,这通常是用哈密尔顿模型来完成的。由于量子态的性质,从观测中制定哈密顿模型的过程变得?

  • 字幕投屏、快速出稿 人工智能加成下的会议新模式

    跟随讲话内容实时呈现字幕,这种以前只在视频剪辑才能看到的现象,正在视频会议以及更多的会场上演。字幕以外,会议内容同时会以投屏形式在会场/分会场大屏幕和线上进行呈现,方便所有与会成员准确获取会议信息。这些场景正是人工智能与会议管理相结合的典型案例,是语音识别、语义理解、机器翻译等AI能力的基础应用。精准识别会议内容目前,语音识别技术普遍采用端到端(CTC)语音识别框架和端点检测(VAD)技术,搭配基于Attenti

  • 明略科技亮相2020中国人工智能产业年会 解读吴文俊人工智能技术发明一等奖成果

    2021 年 4 月 10 日- 12 日,中国人工智能学会主办的吴文俊人工智能科学技术奖十周年颁奖盛典暨 2020 中国人工智能产业年会成功举办。明略科技,作为第十届吴文俊人工智能科学技术发明一等奖获得者,受邀参会。在主论坛和智能系统专题论坛上,明略科技集团首席科学家、明略科学院院长吴信东,对此次获奖成果进行深度解读,就HAO智能理论和知识图谱的自动构建发表主题演讲,并与来自学术界、产业界的权威学者和顶级专家共同探讨人工

  • 再携手民生银行,国双产业人工智能赋能数字金融

    近日,国双签约民生银行智能法律服务二期项目,双方将基于一期建设成果与应用以来的数据与知识积累,进一步升级诉讼智库;同时打造前沿的智能化服务产品,提高民生银行法律智能化水平。国双产业人工智能再度收获场景化落地硕果,护航数字金融稳健发展。数智技术创造法律服务新能力银行诉讼智能化企足而待银行融通各行各业,是市场经济活动中最活跃的参与者与现代经济正常运行的核心,深刻影响着社会经济活力。在我国经济新常态下,?

  • 欧盟正考虑禁止将人工智能用于大规模监控和社会信用评分

    欧盟正在考虑禁止将人工智能用于多种目的,包括大规模监控和社会信用评分。这是根据一份泄露的提案,该提案在预计下周正式宣布之前已经在网上流传。如果该提案草案获得通过,欧盟将对人工智能的某些应用采取强硬立场,使其与一些国家区分开来。一些用例将以类似于欧盟在GDPR立法下对数字隐私的监管方式进行监管。例如,成员国将被要求成立评估委员会,对高风险的人工智能系统进行测试和验证。而在欧盟开发或销售被禁止的人工智能软

  • 研究人员警示:人工智能算法可以影响人们的决定 需就算法的影响进行公共教育

    在一系列新的实验中,人工智能(A.I.)算法能够影响人们对虚构的政治候选人或潜在的浪漫伴侣的偏好,这取决于建议是明确的还是隐蔽的。西班牙毕尔巴鄂德乌斯托大学的Ujué Agudo和Helena Matute于2021年4月21日在开放性期刊PLOS ONE上发表了这些发现。从Facebook到谷歌搜索结果,许多人每天都会遇到人工智能算法。私人公司正在对其用户的数据进行广泛的研究,产生对人类行为的见解,而这些见解是不公开的。学术社会科学研究落后于?

  • 海信一举斩获三项“吴文俊人工智能科学技术奖”

    日前,中国智能科学技术最高奖“吴文俊人工智能科学技术奖”十周年颁奖盛典在北京举行,青岛有 4 个项目荣获科技进步奖, 1 个项目获得企业技术创新工程项目奖,海信独占其中三项。其中,海信网络科技公司参与的“多源高维数据协同表征及应用”项目获科技进步奖一等奖,海信电子公司参与的“语义驱动的视频智能分析及适配传输关键技术与应用”项目获科技进步奖二等奖,海信视像公司、山东大学和山东科技大学共同参与的“跨媒体知识

  • 联邦贸易委员会警告正计划打击有偏见的人工智能技术

    美国联邦贸易委员会警告各公司不要使用有偏见的人工智能技术,因为它们可能违反消费者保护法。一篇新的博客文章指出,人工智能工具可以反映出 "令人不安的"种族和性别偏见。如果这些工具被应用于住房或就业等领域,虚假宣传为无偏见,或以欺骗性方式收集的数据进行训练,该机构表示它可以进行干预。访问购买:爱奇艺周年庆 - 京东联名年卡5.5折仅138元联邦贸易委员会律师Elisa Jillson写道:"在急于拥抱新技术的时候,要小心不要过

  • 相芯科技亮相国际人工智能展,多款AR解决方案惊艳获拥趸

    4 月 11 日,由工信部和商务部支持、中国电子器材有限公司组织的 2021 中国(深圳)国际人工智能展览会圆满落幕。作为中国电子信息博览会旗下的人工智能专业展会,该展会吸引了华为、荣耀、中国移动、相芯科技等科技龙头和新锐创企齐聚一堂,集中展示了大量智能制造解决方案和人工智能技术应用等硬核科技。相芯科技作为国内XR创新应用的头部玩家,在人工智能展览会上展示了AR视频特效、虚拟化身与智能虚拟人技术,凭借生动有趣的AR视

  • 拒绝职场焦虑 讯飞智能录音笔H1让你赢在人工智能时代

    智能录音笔正在悄悄成为职场人的新刚需。近几年,科大讯飞陆续推出了一系列智能录音笔,在高中低端市场均表现优异,驱动录音笔进入智能转写时代。近日,讯飞乘胜追击,推出新品——讯飞智能录音笔H1,旨在用A.I.帮助职场人成功进阶。职场角色随心切换 自如应对人工智能时代与传统录音笔不同,讯飞智能录音笔背靠讯飞强大的A.I.语音识别技术实力,集录音、转写、翻译等多种功能于一身,不但是记者、讲师、律师等专业人员的必备品,?

  • 人工智能助力因材施教——区域教育信息化创新实践论坛”在厦门举办

    4月23日,第79届中国教育装备展示会盛大启幕。同期,由中国教育电视台主办、科大讯飞承办的“人工智能助力因材施教——区域教育信息化创新实践论坛”在厦门圆满召开。来自人工智能领域的教育和科技专家,各地教育管理者、一线工作者共聚一堂,聚焦未来教育发展趋势,交流区域教育信息化实践经验,探究乡村教育振兴路径,为发展更加公平、更高质量的教育凝心聚智。中国教育电视台全媒体中心主任闫勇,科大讯飞股份有限公司高级副总?

  • 2021年人工智能全球最具影响力学者榜单AI2000发布

    4月8日,2021年人工智能全球最具影响力学者——AI 2000 榜单重磅揭晓。 AI 2000 榜单由清华大学AMiner联合北京智源研究院、清华-中国工程院知识智能联合研究中心共同发布,旨在通过AMiner学术数据在全球范围内遴选过去十年人工智能学科最有影响力、最具活力的顶级学者。通过跟踪全球人工智能领域学者2010年到2020年的论文发表情况,用计算机算法自动生成榜单排名,确保了榜单的客观、公正。 AI 2000 榜单涵盖人工智能学科20个子领

  • Alphabet X研发团队希望将人工智能引入电网 让其可视化

    谷歌母公司Alphabet一直在为电网开展 "登月行动",其X研发团队的一个秘密项目旨在找出如何使电力使用比现在更稳定、更绿色。这项研究在白宫领导人气候峰会上被披露,在过去三年中一直在进行。X研发团队开始是Google X,然后在谷歌创建Alphabet作为其总体母公司时被剥离出来成为一个独立的部门。X研发团队并不打算自己架设电线和安装太阳能电池板和风力涡轮机。相反,它正在研究对电网更全面的了解是否有助于向环境稳定的资源过渡。

  • 腾讯汤道生:腾讯将助力培养 10000 名人工智能教师

    4月20日,第二届MEET教育科技创新峰会在北京举办。腾讯公司高级执行副总裁、云与智慧产业事业群总裁汤道生在《深耕智慧教育,助力学习者“生长”》的主题演讲中表示,经过十年发展,教育信息化建设正在从“工具驱动”,转变为“数据驱动”:从单一的教学工具迈向以数据应用提升整体教学能力、助力个性化发展的新阶段。汤道生强调,腾讯教育在其中始终坚持做好“数字化助手”的角色:截至目前在全国落地了10多万所标杆院校,服务了1000多个教

  • 2021世界人工智能大会拟于7月8日-10日在上海召开

    据上海市经信委表示, 2021世界人工智能大会拟于7 月8日- 10 日召开,主会场继续设在浦东世博地区。

  • 首批入选!云从科技入选新一代人工智能产业创新重点任务揭榜优胜单位

    近日,工业和信息化部办公厅印发新一代人工智能产业创新重点任务揭榜优胜单位名单,云从科技成为首批入选的企业之一。人工智能产业创新重点任务揭榜工作是工信部为推动人工智能和实体经济深度融合,加快我国新一代人工智能产业创新发展的重要举措。该项工作于 2018 年底启动; 2019 年底工信部遴选出 203 家揭榜单位和潜力单位; 2020 年 10 月,工信部组织开展了对揭榜项目的测评验收。经实地考察、专家评议和第三方专业机构测评?

  • 网信办人工智能企业典型应用案例发布 七鱼智能营销服务系统入选

    近日,由国家互联网信息办公室 、国家发展和改革委员会、工业和信息化部、国务院国有资产监督管理委员会、福建省人民政府共同主办的第四届数字中国建设峰会在福州举行。会上,中央网信办组织评选的人工智能企业典型应用案例正式发布,网易七鱼智能营销服务案例成功入选。据了解,本次评选是中央网信办信息化发展局基于人工智能社会实验工作有关任务部署,经人工智能社会实验专家组评审,遴选出的一批人工智能企业典型应用案例。此?

  • 腾讯教育推出“光合计划”2.0:将助力培养1万名人工智能教师

    共建100 个职业的体系化课程、助力行业开发1000 款数字化教育应用、助力培养10000 名人工智能教师——4 月20 日,在第二届MEET教育科技创新峰会上,腾讯高级执行副总裁、云与智慧产业事业群总裁汤道生宣布,腾讯教育将携手教育管理部门、各级院校、教育机构及合作伙伴,推出“光合计划”2.0。通过设定新的“百千万”的目标,腾讯教育将推进智慧教学的生态建设,携手行业共建教育信息化未来。(腾讯高级执行副总裁、云与智慧产业事业

  • 热门标签