站长之家首页 > 传媒 > 数据库最新资讯 > 正文

恒昌:数亿实体和数十亿关系的图数据库在风控上应用

2017-06-14 11:08 · 稿源:站长之家用户投稿

近日,知名快递公司顺丰和电商巨头阿里巴巴争端甚嚣尘上,这次争端意味着“数据”已然成为商业必争的“资产”。因此,伴随大数据时代来临,数据获取、存储、分析等一系列技术的研发和应用已经得到了众多企业的关注。

作为大数据开发利用的重要组成部分,就数据存储而言,图数据库是利用图的特性来对数据进行存储管理,并对传统图的概念进行了扩展。越来越成熟的数据模型,使得利用事物(即“节点”或“实体”)及事物之间的联系(即“边”或“关系”)来对各类业务场景进行抽象变得更加容易。也正因为图数据库基于图论的理论和算法实现,相对于关系型数据库,它也更擅于处理网状的复杂关系。此外,图数据库通常都支持对图数据模型的增、删、改、查(CRUD)方法,并较多地用于事务(OLTP)系统中,被应用系统实时访问。

图数据库作为恒昌知识图谱的底层存储方案,是多方数据的知识融合及提炼后进行汇聚的场所,为恒昌丰富的服务线与数据技术间的承转起着重要作用。由于Neo4j是目前最成熟的图数据库之一,恒昌广泛使用 Neo4j作为知识图谱底层图数据持久方案,基于其优异的事务能力而提供实时的数据查询功能。此外,恒昌还在 Titan、Gaffer等分布式图数据库或计算引擎上有着深入的研究。

目前,恒昌的图数据库已经融合了多方数据,包括业务系统主要服务线各阶段的数据、用户授权数据等。这些数据形成的实体规模已过亿、形成的关系已多达数十亿。随着用户数量的提升,这个数据还在持续增长。因此,基于图数据库开发的知识图谱正在发挥着越来越大的作用,目前已经上线或待上线的技术平台覆盖了客户失联修复、反欺诈规则引擎、欺诈团伙调查等,近期还会覆盖风险预警等方向。

1.欺诈团伙调查

图数据库能通过“实体”和“关系”这种简单直观的描述方法来表述现实世界中错综复杂的关联关系。它可以提供逐层挖掘的方式,引导逐步深入分析各种关系;还可以快速呈现实体之间最新的关系变化,积累更新的知识和经验;也可以清晰地呈现复杂关系间的联络线索,为判断事件来龙去脉提供有效引导。此处,以恒昌的客户为例,参考图 1 中的客户徐某(因数据安全的原因,部分信息作了涂抹,并对原有图结构进行了简化),如果仅考虑该客户自己填写的信息,虽然能看到一度关联信息,但完全看不出该结构会有什么问题,也无法进行深入调查。

 

图 1 客户徐某借款时的联系人信息简化图

当关联信息得到补充(相对于原进件联系人,补充了同事、邻居、亲属、朋友等关系,还基于用户授权数据进行了深度扩展)后,暂不考虑物品(如手机号、银行账号、地址等),仅考虑自然人,获取徐某二度关系内同时在恒昌网贷平台有借款行为的用户,得到图2(基于同样原因数据有涂抹及简化)的结果。该图每一个圆都代表一位恒昌客户,图顶部的状态说明了客户当前所处状态。观察左下角以徐某为中心的四个客户(已用红框标出),他们刚好是所呈现图的最大完全子图,符合图论中团的定义。再看除徐某外的三个客户:两个逾期、一个被拒。如果徐某是新入图数据库的借款人,从数学模型的角度看,几乎可以直接判定拒绝。因为符合这种状态的团,是欺诈团伙或是组团代办的几率非常大。

 

图 2 客户徐某补充关系类型后的一度及二度关联信息

到这时工作并未完结,如果有需要,可以基于图中的关系尝试与几位客户联系以进行深入背景调查证实,调查的结论可以融合到图数据库中形成数据闭环,直接改善后续自动化预警的结果。

2.风险事件预警

尽管对欺诈团伙调查能取得不错效果,但因其可能需要调查员随时联系客户或联系周边人群以验证调查员的推论,因此整体成本还是相当高的。为了解决这个问题,基于模型的风险事件预警就应运而生。如果说欺诈团伙调查是主动出击,风险事件预警更像是被动防御。

风险事件预警是通过模型生成一组类似上述欺诈团伙调查中出现的场景,给每一个场景一个相对低一些的初始置信度,后期通过不断的反馈迭代来优化置信度。当一个新客户到来之后,首先会将其信息整合到知识图谱中。紧接着,该客户会被规则引擎捕捉到,规则引擎会基于客户信息从知识图谱中提取一组特征,由该特征决定了引擎首先会触发哪些场景,而这些场景的结论可能导致规则引擎又触发另外一组场景。在满足特定条件下,最终结果输出,如果有相应的风险事件被触发,则信息会送达相关团队。

风险事件预警最有意思的地方在于,一个新客户的到来,可能会导致一个早先客户的风险事件被触发。这主要是因为新客户融入到知识图谱中时带进的新数据,可能会让图谱中的某些子网的结构发生彻底的改变。目前恒昌采用一组启发式的算法来扩展新进客户的影响,效果显著。这也意味着,风险事件预警并非只针对贷前风险事件,还会将贷后风险事件作为预警。比如触发了某个老客户的潜在逾期风险时,就可以引导相关团队提前关注,在情况恶化前及时止损。

3.失联修复

如果客户奔着欺诈而来,那几乎也注定了后续无法联系上,称此类失联为“第一类失联”。“失联”是无法完全避免的,主要是因为失联的成本很低。即使客户自身“消失”的意愿不高,但换手机号、搬家、换公司都可能导致客户及其联系人完全联系不上,称此类为“第二类失联”。

将图数据库应用于失联修复是非常直观的,因为图数据库在数据丰富的条件下能非常方便地进行各类关系的提取。恒昌的失联修复项目结合了知识图谱(基于图数据库)及传统的机器学习技术,前者作为修复策略的具体联系方式来源,后者作为策略有效性的评估依据。目前,恒昌能做到失联客户实时修复,修复专员完成具体操作后会有相应的备注及日志信息,这些数据会被实时收集用于改进修复策略。

本文仅拿众多策略中较为容易理解的一条来略作说明,这条策略主要是从图数据库中提取和失联客户处于同一公司,且当前住址与失联客户接近的用户作为修复中间人。虽然是一条简单的策略,但深入思考会发现,国内有很多规模不小的工厂会吸引周边村子的人去工作,而这些村子可能本身规模也不小,这样修复中间人不见得认识失联人。因此这条简单的策略背后也需要有一个启发式算法,通过公司/工厂的规模来调整当前住址需要匹配的粒度(比如,是到村、到组、还是得具体到门牌相邻)。更进一步,如果在此基础之上,修复中间人和失联人有过通话记录往来或是有通讯录关联(事实的条件远比这个复杂),就大幅增加了该修复中间人的置信度,甚至可以基于此条件在图数据库查询过程中提前中止,直接返回相关结论。以上操作基于图数据库可以将数据一次取出再进行处理,基本是毫秒级响应,如果触发了提前中止,耗时可能更短。但如果基于关系型数据库,首先会涉及多张业务表的检索、关联,其次还可能按照初次处理结果多次连接数据库,造成数据库资源的浪费。

实际中,恒昌通常会混合使用多种数据库,以利用它们各自的特点来创建一个数据生态系统。除了图数据库外,大规模的用户授权数据会让恒昌在底层配上分布式的列式存储或键值存储库。但回归根本,恒昌期望为客户提供高效、安全的财富管理及借款信息咨询与服务,就需要优秀的风险控制作为保障。而这,恰恰也是图数据库能最大程度发挥价值的领域之一。

免责声明:“站长之家”的传媒资讯页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与我们联系删除或处理。稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性,更不对您的投资构成建议。我们不鼓励任何形式的投资行为、购买使用行为。

  • 大家在看
  • 相关推荐
  • 误删数据库?华为云数据库多重防护硬核保证数据安全

    最近有个关于删库的帖子在网上引发热议,数据库的安全可靠性又一次成为很多企业管理者的担忧,数据库安全和备份机制再次成为行业关注的重点。那么,删库的悲剧是否可以避免?删了数据库可以恢复如初吗?安全没到位,再多功能体验也白搭数据安全是守护企业生命的一道有力防线,对企业未来发展至关重要。但绝大多数中小企业的自建数据库和一些云厂商的云数据库服务往往忽略了数据安全的重要性,自身安全防护机制不够严谨,容易面临各种

  • 型号已现身数据库!新款iPad发布在即 升级幅度大

    现在全球爆发的疫情,让苹果不得不重新考虑何时发布新机,毕竟在这个关键时刻,用户的关注度都在疫情上。

  • CD数据库Freedb.org将于3月31日关闭

    社区生成的音乐CD数据库Freedb 将于 2020 年 3 月 31 日关闭。该服务是CDDB的免费替代产品。该服务是作为CDDB的免费替代品而建立的。许多CD刻录应用程序从Freedb中提取元数据以节省用户手工输入的时间,但是这项服务有一些主要的限制,现在已经被MusicBrainz所取代。

  • 前美国国土安全部指控窃取政府机密软件、数据库

    美国司法部指控美国国土安全部(DHS)的一名前代理监察长盗窃专有软件和政府机密数据库。

  • 3月数据库排行:前10整体下行,出新技术了?

    排名方面没有任何变动(仅针对前十),相信很长一段时间内也都不会变动,毕竟巨头的位置不是一时半刻就能动摇的。不过这个月的排行榜还是有值得关注的地方,可以看到,排名前十的数据库有七成的分数都出现了下降,其中前两名 Oracle 和 MySQL 的分数下降最多,分别降低了 4.11 和 7.92 分。

  • 支付宝自研数据库OceanBase正式通过阿里云向全球开放

    3月25日,支付宝表示自研的金融级分布式数据库OceanBase正式通过阿里云向全球开放,企业可在云上获得“支付宝同款”的世界顶级数据库处理能力。OceanBase数据库可实现数千亿条记录、数百TB数据上的跨行跨表事务,同时OceanBase可兼容Oracle和Mysql数据库。

  • ECC 数据库文件显示苹果新 iPad 即将面世:或为三摄 iPad Pro

    在 ECC 数据库中,该设备被描述为「Apple 平板电脑」,型号为 A2229。AppleInsider 认为,该设备可能为此前传闻的三摄 iPad Pro。不过考虑到此前苹果新设备的信息有提前数周甚至数月出现在 ECC 数据库中的情况,目前无法判断近期是否会有新款 iPad 发布。

  • 珀科技集团证通升级,解决互联网时代版权监管难题

    2020 年 3 月 12 日,四川库珀科技集团对一站式电子存证服务,库证通进行了全面升级。在区块链技术的基础上对共识算法进行了改进,使其满足更多使用场景,为用户提供一站式电子存证服务。 随着互联网的进一步升级,越来越多的公司陷入了版权困境。如何及时地发现侵权行为并进行取证让不少公司焦头烂额。库证通围绕着版权可信存证进行深度探索,最终实现为公司解决信息数据非法传播的鉴权问题。 据悉,库证通基于库珀科技集团自主?

  • 纳米数据与OPPO达成数据合作,体育大数据玩转智能语音时代

    都市白领熬夜看球伤不起?NBA狂热粉苦于找不到直播链接?不常看球还想收获一手体育消息?现在开始,OPPO在体育大数据时代给你全方位感官快速无延迟的体育赛事阅览体验!在过去的十年间, 人工智能(AI)经历了快速发展,图形图像信息的处理与语音识别信息的处理都达到了前所未有的高度,无论是VR游戏还是智能机器人,人们的生活中人工智能的身影已无处不在。而作为人工智能的重要分支,AI语音技术,拿起你的手机,送上一句轻轻的问候,你

  • 云测数据:新基建时代的“AI数据雄兵”

    几年前,AlphaGo瞬间点燃了AI的激情与梦想,巨大的光环把AI推向了市场的风口。之后的几年国内的AI创业虽然几经起落,但也逐渐走向成熟。AI产业将逐渐褪去浪漫主义的“光环”,走向实用主义的落地。在 3 月 4 日,国家决策层提出要发力于科技端的基础设施建设,人工智能成为“新基建”七大版块中的重要一项。“新基建”的呼啸而至,显然为中国AI产业的稳步推进起到了关键的作用。简单回顾一下AI的发展历程,AI的三大要素是指算法、?

  • UCloud优刻得数据方舟,强效守护数据安全

    业务连续性能力是企业在面对内外部风险,自我修复和快速反应的能力表现。在数字化时代,重要数据是企业正常运营的核心资产,对企业而言“生死攸关“,企业掌舵人们更是时刻加倍重点关注,丝毫不敢懈怠。但企业的重要数据保护也面临重大风险,如遇到恶意攻击,传统的数据备份亦会随恶意攻击而失效,造成企业也无法通过备份恢复业务数据。应用全部删除了还可以重新部署,数据没有了,企业就会面临生存危机。那么如何避免这样灾难性的

  • 谷歌将在全球新建4个数据中心,可用于国内数据灾难恢复的数据区域

    3月5日消息,谷歌云宣布将开设四个新的区域数据中心。这4个数据中心分别位于印度德里、卡塔尔多哈、澳大利亚墨尔本和多伦多加拿大。在此次消息发布之前,谷歌云已经在印度、澳大利亚和加拿大建立了区域数据中心,随着这些新的区域数据中心的发布,该公司现在可以提供两个地理上相互独立的可用于国内数据灾难恢复的数据区域。

  • 微软必应推出疫情地图数据网站,更新全球数据报告

    3月16日消息,微软必应团队发布了一个门户网站,用于跟踪全球范围内的新冠病毒疫情变化。微软必应发展和分销总经理迈克尔·谢克特表示,“在过去的一周里,许多必应员工在家远程办公为新冠病毒疫情创建了一个地图和权威的新闻资源网站。”该网站的地址为bing.com/covid,是一个基本的跟踪报道门户网站,该网站更新了全球每个国家和地区的疫情数据报告。

  • 新基建”带火大数据、AI,数据存储成刚需

    访谈嘉宾:浪潮存储产品线总经理李辉近日,“新基建”成为业界关注的热点,5G、大数据中心、人工智能、工业互联网等新型基础设施建设正在加速推进。为此,我们邀请到浪潮存储产品线总经理李辉,共同探讨新基建对数据存储产业的影响。新基建驱动5G、大数据、人工智能发展升级Q:新基建,是相较以往铁路、公路、机场等传统基建提出的概念。您如何看待加速发展“新基建”的社会和产业意义?李辉: “新基建”实际上就是新时代下,物质?

  • Convertlab入选胖鲸智2020 Brand Partner TOP 5

    近日,胖鲸智库发布2020年《品牌拍档 Brand Partner 20 | 50》营销行业创新研究,Convertlab作为国内领先的营销技术营销云企业,成功入选“Top50酷公司”,再次实力展现MarTech市场领跑地位。《品牌拍档 Brand Partner 20 | 50》是营销行业专业媒体平台胖鲸智库2020年重磅推出的研究成果。此研究在倾听品牌主切实营销服务需求、收集大量营销服务商信息基础上,抓住营销主线,厘清新兴赛道,用七大主干道和下属新干线来还原营销生态

  • 数据竞赛白皮书》:各地政府积极举办数据竞赛的深度分析

    数据竞赛是指在以真实业务问题为导向,聚合广泛的、跨学科的数据人才的参与,利用数据研发算法模型、探索解决方案的新型研发模式。放眼中国市场,数据竞赛自 2014 年萌芽以来,数量每年以翻倍之势增加,主导者不乏权威的科研机构与高校,亦有来自各行各业的领军企业。身担城市管理与民生重任的政务机构也在“大众创业、万众创新”的政策驱动下,开始意识到数据的力量,牵头组织了多场大型数据竞赛。在“大众创业、万众创新”的号召

  • 神策数据新版本上线,四大特性让数据治理更轻松

    一个好的大数据用户行为分析系统,不仅可以让使用者易用、分析的更深入,更会辅助企业将整体数据质量和准确性提升到一个新阶段。神策数据新版本上线,正是聚焦企业数据治理的强化和数据分析的深入多维进行了全面迭代,从根本上帮助企业灵活多维的进行精准的数据分析。一、源头保障,“强校验模式”让数据准确分析高效数据源不准确是引起数据分析结果不一致,业务与技术低效协同的根本性诱因之一。神策数据新版本在自由数据上报模式

  • 卡思数据:抖音VS快手,通过数据看KOL、粉丝及内容生态变迁

    2019 年,短视频一枝独秀,成为了移动互联网使用时长增长最快的细分领域。尽管各大资本方都陆续投入到短视频流量争夺中来,但综合平台竞争G2 格局已显现,抖音、快手毫无疑问成为短视频领域两强势力,在此背景下,抖音、快手围绕着“留量”和“商业变现效率”的竞争也愈发激烈。而在这如火如荼之下,随着短视频内容创作梯队的一再扩容,平台内部竞争也愈发加剧,内容创作者间的“淘汰赛”已然开启,创作者乃至MCN机构的生命周期都?

  • 一文了解最全球化的币交易所

    据不完全统计,目前币圈有至少 1000 家交易所,流动性、安全性、币种多少、产品等常常是用户选择的重要考量因素。今天为大家安利一家靠谱但又还不算大众的交易所库币,又名KuCoin。库币成立于 2017 年 9 月,目前是全球最流行的交易所之一。Tokeninsight的数据显示,库币的用户来自全球 100 多个国家和地区,分布之广全球No.1, 2018 年,库币获得了两大风投——IDG资本、经纬创投的 2000 万美元A轮融资。值得一提的是,IDG资本也?

  • 宝助力打造智慧医院,实现医用耗材药品仓储自动化管理

    新冠肺炎疫情下,智慧物流成为全民关注焦点,打造高效、智能、柔性的物流体系是企业发展的长久之计。在智能机器人技术活跃于抗疫防疫期间,海柔创新自主研发的库宝系统(HAIPICK)亦运行于深圳某智慧医院,助力高效复工,为节约患者就医时间、改善就医体验贡献力量。作为国家数字化示范医院和广东省智慧医院建设单位,深圳某知名医院现已实现手机线上预约、缴费等功能,更有导医机器人、护理助手机器人等多种智能“黑科技”活跃其中?

  • 参与评论
文明上网理性发言,请遵守新闻评论服务协议