全栈式内容风控,UGC内容平台的生死大事 - 站长之家

全栈式内容风控,UGC内容平台的生死大事

2018-08-10 17:16 稿源:溪姐的网站  0条评论

令UGC头部平台焦虑的,不是流量,而是内容审核

UGC内容平台,无论是资讯类、社交类、还是视频类,在赢得了网民的支持(流量暴增)之后,随之而来的,是频繁的监管审查、违规处理,诸如约谈、整顿、关停。

凡事物极必反,经济繁荣表象下深藏泡沫,而内容产业的繁荣下则是乱象丛生,受利益驱使,黑产自然不会放过内容平台这块肥肉,平台成了间接作恶工具,自然给企业带来源源不断的麻烦、损失。

2018年4月4日,国家广电总局约谈今日头条、快手相关负责人,要求其将网站上涉及低俗、暴力、血腥、色情等内容的节目立即下线。

7月,短视频行业又迎来一轮最严监管,多达15款短视频App被下架。其中包括哔哩哔哩、洋葱视频等用户耳熟能详的短视频分享平台。

2018年,令UGC平台最焦虑的不是流量,而是合规,是内容风险。Facebook目前在全球拥有7500个内容审查员;年初今日头条内容审核已超过4000人,预计未来突破1万人;快手多次被约谈,勒令整改,不得不扩充审核队伍,2018年4月宣布紧急扩招3000名内容审核员。

当然,除了大平台,小平台也一样,内容风控是当下互联网业务发展最急迫也是最棘手的问题。

来自内容的风险主要有两类

一是监管合规难。主要是涉政、违禁、暴恐、色情四大类内容,将直接导致平台面临约谈、整顿、罚款乃至关停等监管风险。

二是商业损失。UGC平台充斥大量广告导流、欺诈广告,导致用户体验变差、用户流失、平台受损。

导流广告和欺诈广告,往往由黑产所为,随着互联网行业发展,网络欺诈无处不在,黑色产业链已发展为成熟体系。企业反欺诈面临着黑产技术水平与专业程度不断提高、缺乏全局风险数据支撑、专业反欺诈人才不足等实际难题,在黑产面前,损失不言而喻。

内容上出了问题,不仅会导致企业停摆,更会让股市瑟瑟发抖,令投资人睡不好觉。此前,在被点名、约谈乃至下架之后,B站股市飘绿,随后不得不将内容审核上升到战略级。

在内容百花齐放的时代,内容风控自然成了各平台不可避免的发展课题。

内容风控的四个发展阶段

对于内容风控的进化阶段,数美反欺诈专家陈建认为有如下四个:

一、无人监管。平台必将频频遭遇监管冷板凳待遇。

二、全部人工审核。面对黑产时,他们是机器作案,快速更新欺诈手段,更新设备号。人工必然是疲于应付,却收效甚微。

三、机器+人工审核。这是部分公司采用的方式,但受限于策略与模型上的规则简单,导致机器漏杀误杀严重,人工变成了对机器审核的再次检验,效率不仅没有提升,准确率也不高。

四、全栈式AI审核。基于人工智能算法,海量内容数据库,建立全栈式的内容及场景模型覆盖,结合用户行为画像,确保内容防护面面俱到,内容识别高效与准确。

内容大爆炸的时代,违规内容、欺诈内容呈指数级增长,在内容审核上,有些是人工无法逾越的,比如人不能24小时工作,内容审核团队也不能无限制扩编。

此外在效率上,人工看图片可以快速掠过,看视频和音频却无法快进,效率就会大打折扣。而机器可以在音视频上节省大量时间,比如在音频识别上,将声音转化成文字,再识别文字内容。再比如面对黑产操纵的欺诈广告,可以采用全局的风险数据支撑和强大的反欺诈技术,实现精准识别。所以,应付五花八门的内容风险,自然要采用更前瞻的人工智能技术加全栈式的内容风控策略。

如何构建一个无懈可击的全栈式AI内容防护?

机器智能审核的准确率取决于数据量、算法、模型。当数据量不够多时,自然会漏杀,当策略模型和算法不准确时可能会误杀。AI过滤就是通过对海量数据的深度学习,再结合算法对特定场景建立相应的分析模型,最终把不同内容形式的不良内容过滤和拦截掉。

当然,对于不同内容形式,所需的技能与策略也不一样,下面我来一一讲述。

文本识别

在文本识别上,人工智能技术可以通过深度学习与智能文本语义分析,识别同一词在不同语境中的风险。比如针对大麻一词,“雨很大麻烦车开慢一点”是正常,“在美国大麻违法吗”就属于违禁。

文本识别重在要同步网安和网信办合规要求,建立违规敏感词库,一般要建立数十万级词库,涵盖各类敏感信息。

在对色情文本的识别上,则体现在分类模型的建立上,比如区别什么是色情、什么是低俗、什么是辱骂,因为不同平台的审核标准不同,不同的分级要区别对待。

文本识别,还有一个很重要的功能就是识别联系方式。现在的联系方式(微信、QQ、手机、网址、百度搜)以及各种变体,可谓五花八门。对此,通过机器学习建立上万种联系方式变体特征库就显得很重要。

图片识别

图片识别同样有各种细分需求,拿涉政图片来说,就得分普通、漫画、雕塑、恶搞、负面涉政等。图片识别重在建立数据库,以及针对不同类型进行模型训练。

拿暴恐来说,同样是枪支,细化到场景,有单纯的枪支图片,但是游戏人物拿着枪支算不算?这就涉及到对不同的枪支图片进行细分,分别建策略模型,确保游戏枪支不被误杀。

色情图片识别,也需要分级,性感、色情、重度色情要区别对待,其次是场景,直播、视频、电商、社区、游戏,不同的场景下的色情要分别对待,海外一些平台非常重视儿童裸露色情,所以就得有儿童裸露的策略模型,而国内审核上一般不视为色情。

音频识别

一般语音识别在语音直播、FM电台、语音消息、语音文件、视频直播中都有用到。语音过滤可以利用人工智能将语音转文本,再识别文本中的涉政、色情、广告等内容。语音识别又涉及到不同语种,比如普通话、英语、藏语等。

此外,还有一些是特殊化的语音,拿数美天净来说,就专门为语音中的娇喘建模,目前有多家平台在使用,娇喘识别是通过深度学习与语音检测技术,识别娇喘、呻吟等非说话色情。

视频识别

视频识别是对视频内容中的画面、声音、文字进行全方位分析过滤,视频包括短视频、长视频、视频直播等多种场景。

人工智能技术对视频的审核过滤,会将视频进行拆分,将视频进行画面截帧,从而过滤图片,图片中的字幕则利用OCR字幕来过滤。视频标题通过文本过滤模型来检测,视频语音则单独采用语音模型过滤。

全栈式AI内容风控需要具备哪些特征?

互联网发展至今,需要内容风控的场景越来越多,更新迭代也快,从文本、图片,到长视频、短视频,直播答题火了一阵后,抖音风生水起,内容的场景越多,对内容审核的AI技术及场景化应用的要求也更高。我认为做到全栈式AI内容风控需要具备三个方面:

一、横向来讲,在内容形式上要做到全域覆盖

内容主要有五类:文本、图片、音频、视频、网页。文本要合规,音视频也要合规,各种形式的内容风控都要抓起来。文本比较单一,但视频中有图片、标题、字幕、语音,它又是一个综合了多种形式的内容,它的审核要更复杂。在音频内容中有声纹识别,还有非说话色情,比如娇喘等等。在内容形式上要覆盖足够宽广,才不会造成误杀漏杀。

二、纵向来讲,在垂直场景上要做到深度应用

风控是细化到场景的,对场景的理解与场景化建模能力要求很高,拿图片涉政场景来讲,有正常照片、雕塑、漫画,每一个场景都需要单独的模型;游戏直播平台会要求把枪支分为枪支和游戏枪支,那么游戏枪支就需要单独建分析模型。在特殊时期,坦克这一类型也是需要被识别过滤的,还有不良行为,比如抽烟、喝酒等。人工智能技术非常考验对场景的理解与技术应用。

三、结合用户行为画像,从源头识别欺诈用户

前文中提到的内容风险除了有监管不合规外,还有一类是商业损失。造成商业损失的内容,如广告导流、欺诈广告是由专业的黑产团队所为。

正常用户所发布的内容,我们通过机器的深度学习来识别,但黑产发布的内容通常是通过设备号批量注册账号,批量发布信息,令人防不胜防,这时候就需要我们结合设备指纹与用户行为画像分析来进行反欺诈。

行为画像是采用行为序列、关联图挖掘、风险传播算法等时域关联分析技术对用户做行为分析。比如用户在登录时显示没问题,但是每隔几分钟登录一次,可能就是问题用户。再比如用户登录没问题,但行为有问题,频繁发违规内容,这样综合判定该用户是有问题的。

用户画像主要是对用户历史行为进行记录,对其每一次的网络行为也进行记录,最终结合启动、注册、登录、再到业务行为,把这几个步骤关联起来建立用户行为画像,确保识别效果更准确。

用户行为画像是反欺诈中的关键点,以数美天净的声纹识别举例来说,在平台上识别出欺诈广告的账号,会把其声纹记录下来存在声纹黑名单库中,下次即使该用户更换了设备再进行诈骗,依然可以通过声纹比对识别出来。

一般一台设备是一个人使用,不同的声纹使用同一台设备,并且出现违法内容时也可以判断为有问题的用户。声纹识别是通过声纹检索比对技术,进行声纹聚类、关联,发现线上、线下语音广告与欺诈行为。

横向的内容层、纵向的场景层、加上从源头对用户行为的分析,全栈式AI内容风控,其实是建立了一个多维防御空间来拦截和过滤违规内容与欺诈用户,从而防范业务风险,避免更大的损失。

增长得越快,背后的风险也越大。UGC内容平台,小步快跑的同时,别忘了,先好好活着。

本文由 数美颜溪原创发布,未经许可,禁止转载。

相关文章

相关热点

查看更多