首页 > 传媒 > 关键词  > 数据资产最新资讯  > 正文

数禾科技X瓴羊:数据资产建设实践(附方法论解析)

2023-04-10 17:21 · 稿源: 站长之家用户

摘要:在与瓴羊建立合作后,数禾科技通过Dataphin在数据架构、数据建模、数据治理等维度,进行了增强管控,同时结合行业最 佳实践,沉淀出了一整套独具特色的数据资产建设方法论。在引入了新工具、新范式后,数禾科技的数据处理能力提升了 8 倍,做到了数据生产链路 0 事故。

普惠金融服务的落地,离不开数字技术的快速发展。

作为专注于普惠民生的金融科技公司,数禾科技多年来秉承着“让人人享有金融服务最 优解”的使命,凭借先进的大数据、人工智能等技术,将金融的普惠价值通过数字科技的力量,落地到更多的场景与客群当中。

以数禾科技旗下的还呗小微贷产品为例,这是一款为资金周转困难的小微企业主提供的专属信贷产品,让小微业主借的省心,借的轻松,借的方便。目前还呗小微贷面向 40 万小微企业主提供金融服务近 140 亿元,实现这样一个业务服务规模,背后需要一套完善的智能化金融服务平台来做支撑。

图1. 数禾科技主题域模型

“虽然各家的业务不一样,但需要的数字化能力可以是一样的。”

当被问到作为数禾科技的CDO,如何来规划数禾科技的数字化能力建设方案,王冠 军的回应非常简单直接,那就是「向最 优 秀者看齐」。无论是各行各业的最 佳实践,还是在数据处理、分析领域有着抢眼表现的阿里,都是数禾科技对标的对象。

“Dataphin代表了阿里先进的数据生产力,我们怀着开放的心态,把先进的工具引入进来,并践行方法论和最 佳实践,数禾要站在巨人的肩膀上,对自身业务场景进行全方位赋能。”

数字化能力建设离不开顶层设计,数禾科技逐渐发展沉淀出了「一环四化」规划蓝图,即业务数据化、数据资产化、资产服务化、服务价值化,以及贯穿事前、事中、事后的数据治理闭环。

图2. 数字化顶层规划

曾经,数禾科技也因缺乏科学的数据体系建设和治理的指导,面临了“数据湖”变成“数据沼泽”的尴尬处境。在与瓴羊建立合作后,数禾科技通过Dataphin在数据架构、数据建模、数据治理等维度,进行了增强管控,内外兼修,积极拥抱阿里生态,迅速拉齐到业内领先水平。

与此同时,基于瓴羊过去在阿里内部实践沉淀下的方法论,数禾科技结合行业最 佳实践,根据自身业务场景进行二次创新,沉淀出了一整套独具特色的数据资产建设方法论,下面通过三个实例进行说明。

一、设计DBus机制,让数据有序流转

「数据资产化」是数禾科技四化环节的重中之重,即通过对业务过程进行建模、提炼指标、萃取标签、特征工程等等,进行数据资产的沉淀。

其中,以数据团队为主导构建的相对稳定和通用的数据资产体系,被数禾科技定义为「官方资产」,此类资产可以解决企业60%-70%的共性问题,剩余与业务场景强相关的个性化需求,数据团队会通过Dataphin开放数据能力给到业务团队,如私有化数据集市、沙箱体系等,让业务开放创新地将数据资产用起来。

图3. 数据中台项目启动至今使用增长情况

目前数禾科技全公司有近一半的同事,都在自主使用Dataphin作为数字决策辅助工具。但业务团队所生产的「私有化数据」都需要按照一定的标准规则被强管控起来,不可以无序流转。

因为在「数据资产化」阶段,想要数据资产被最 大化地有序利用,需要企业清晰掌握数据使用的链路,找到那批可持续复用的数据资产进行下沉,逐步将数据有序分批地沉淀到「官方资产」,而过于个性化的数据资产,则留在项目空间里由业务方自行处理。

图4. DBus机制

通过Dataphin提供的端到端数据血缘探查和管理能力,数禾科技形成了DBus机制,来负责私有化数据流转的标记、监控和管理,以此保障数据资产化能够有效有序开展。

数禾科技数据团队成员表示,过去,由于数据的生产流转缺少工具进行管理和监控,导致数据的关系网络极其复杂,调用链路被各种上下游牵制,往往是牵一发而动全身,有些节点想做下线处理十分棘手。

在数据资产建设过程中形成的DBus机制,是通过标准和架构设计,让数据的流转能够通过一个数据共享总线来统一管理。比如私有数据集需要符合数据治理的规范和标准,才可以进入到DBus数据总线进行共享流通。数据团队会监控DBus总线上的数据资产,通过Dataphin将这批资产打标,持续跟踪资产流转情况。

如果某批资产被跨团队高频调用,就会由数据团队下沉到公共数据体系,发布到数据目录上,个性化的数据资产就此有了「身份」,并入「官方资产」,以此保障共享型的数据资产能够被充分利用起来。

王冠 军表示,“之所以会在数禾内部诞生这类数据流转机制,正是因为企业必然需要在中台的稳定性,和业务的敏捷性之间做出平衡。”Dataphin可以通过项目空间的隔离,让业务侧享受到充分的用数自由,同时让具备高共享价值的私有化数据,及时下沉到「官方资产」,最 大化释放数据价值。

二、创举DCube方法论,清晰管理个性化指标

“数据资产在数禾内部是层层流动的,并且这种流动是有序的。通过Dataphin基于OneData方法论设计的标准研发流程,数据从原子指标经组合公式生成派生指标,在这个过程中,我们会发现数禾还有很多特有的指标需求。“

王冠 军说话语速偏快,能够根据问题迅速组织出清晰、全面的表达内容,这可能和他长期保持以不同组织视角来思考问题的习惯有关。

“我们数据团队是以客户为中心的,这个客户指代的是数禾内部的业务团队,所以,我们需要通过特定的方法,让他们能够更便利地使用个性化指标,不要重复建设公共指标。”

数禾科技的数据团队借助Dataphin,用可视化拖拉拽方式快速生成一个公共指标层,目的是消除二义性,让指标的生成更加标准和规范,同时增加了一个扩展层,也就是DCube,生成面向业务场景的个性化指标,DCube层更便于业务理解,让他们能快捷地使用起来。

图5. “统一指标+”方案:基于Dataphin统一指标工具的增强版

通过DCube层的规范设计,数禾科技的数据团队在数据资产化环节,有效平衡了通用性和灵活性的资产建设需求,并在后续的「资产服务化」环节,通过API接口调用、文件服务、消息队列调用这 3 种标准服务的方式,使得数据资产可以快速地被对接到BI,以及其他应用系统,进一步将「服务价值化」。

在数据中台上,数据团队逐渐形成了BI分析产品、CDP产品、全视角用户洞察产品等,不仅提升了数据团队的交付效率和质量,也真正帮助业务团队更方便地使用数据,在营销、风控等场景准确识别用户需求,有效开展普惠金融服务。

三、开发治理一体化,让数据治理从Day1做起

提到数据治理工作的启动,数禾科技的数据团队成员是有很多苦水要吐的。

“曾经的数据湖架构,同一个实体和字段有不同版本,数据关系存在大量的冗余和不对称,在迁移任务到Dataphin的过程中,扒逻辑就扒了 12 层,如果开发Owner离职,这个逻辑真的没有人可以理清楚了。”

通过Dataphin落实了DBus机制后,逻辑变得扁平化,引用关系简单清晰。我们使用Dataphin构建清晰的总线矩阵,划分并定义数据域、业务过程、维度、原子指标、统计周期和派生指标,消除了指标的二义性。这就使得数据资产的开发、管理、运营都变得更加清晰明确。

其次是「生产隔离」设置。以前做数据湖,不太关注生产环境和分析探索环境的管理,大家都各自在里头做数据分析,生产调度作业很多都是探索实验任务,生命周期很短,逻辑变更频繁,数据作业只上不下,结果就造成生产环境越来越混沌。

“现在,我们通过Dataphin严格区分了数据探索和生产环境:探索环境可以非常灵活,我们给业务同事提供了沙箱环境,他们可以自由发挥创新精神,不使用就全部抹掉;而在生产环境,我们需要保障数据质量、时效性和稳定性,因为这部分环境中的数据,需要支撑业绩报表、数据决策、交易增长等一系列与企业经营密切关联的场景。”

在企业中,数据治理往往不是发起一个独立的运作项目那么简单,它被深深地嵌入到了企业经营的每一个细节当中。王冠 军认为数据治理工作旨在不断调节降低大数据系统熵值,从而使得数据质量、数据安全、资源成本都得到有效的管控,持续为业务价值创造提供可信的数据资产。

“我不觉得成立一个数据治理组织是最关键的,我们数据治理的机制和能力,都是通过不断解决问题进化出来的。”

事后出现问题,比如SLA数据延迟,到了原定的时间没有出来,就先建工单分配到数据工程师解决问题,然后启动复盘改进,往前推,到事中的告警触发,事前的检查规范和制度是否有被落实等等。“一个故障越是在前期被防控,对我们来说成本越低,我们的数据治理工作就是这样一步一步通过Dataphin的工具能力被前置到Day1。”说到数据团队所遇到的各种问题,王冠 军表现出来的是一种非常积极的处理态度,他把这些都视为团队治理能力进化的推力,而非阻力。

自从在数据架构、数据建模、数据治理等环节引入了新工具、新范式,数禾科技的数据处理能力提升了 8 倍,做到了数据生产链路 0 事故,王冠 军微笑着说这要感谢Dataphin的助力,但这样一支勤于思考,精于做事的数据团队,发展得越来越好也是必然。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 数禾科技获评“2025企业新质生产力标杆案例”,AI深度赋能金融科技全链路​

    《中国企业报》集团主办的"2025企业新质生产力调研成果发布暨投资交流促进会"在京举行。数禾科技凭借AI技术在智能风控、智能客服、智能贷后及数字金融基础设施建设等场景的创新应用,成功入选"2025企业新质生产力金融科技领域标杆案例"。该公司通过自主研发的50余个AI智能体、80个自研平台和80项专利技术,构建了普惠金融科技新模式。作为技术驱动的金融科技公司,数禾科技累计申请专利370余件,覆盖人工智能、人机交互等数字经济核心领域,展现了强大的自主研发实力。此次入选不仅是对其十年AI深耕的认可,更彰显了中国金融科技企业的持续进化。未来,数禾将继续优化AI技术在普惠金融场景的应用,为实体经济高质量发展提供科技支撑。

  • 数禾科技十年成长密码:“科技力”成就穿越周期的新引擎

    数耘科技成立十年来,通过持续科技创新打造"智慧大脑"智能决策中枢,融合传统机器学习与大语言模型,实现精准用户画像、风险定价和资金路由优化。公司自主研发70余个平台矩阵,申请专利370件,获授权80余件,覆盖AI算法、风控模型等金融科技核心领域。其技术成果获"高新技术企业"等多项荣誉,显著提升普惠金融服务效率,解决小微企业融资难题。在AI技术快速发展背景下,数耘科技持续拓展金融服务边界,为行业智能化升级注入新动能。

  • 大厂盯上AI玩具,你的下一个LABUBU可能出自阿里

    在2025年下半年,大厂的AI争夺战已经卷到了玩具上。 前有OpenAI宣布与玩具巨头美泰合作,后有马斯克推出AI伴侣,如今,京东更是大张旗鼓地要涉足AI玩具赛道。

  • 从数据到安心:全民钱包用科技让信任不再是空谈

    在网贷行业风险与合规双重约束的背景下,用户资金安全诉求与平台风控能力的匹配度已成为核心竞争力。全民钱包深耕消费信贷风控领域,依托自主研发的金睛风控系统(CRAM),构建了以大数据治理为基础、AI算法为核心的智能化风控体系,通过技术穿透实现风险的精准识别与高效拦截,为普惠金融场景提供了可量化的安全保障。一、风控技术底座:数据治理与特征工程的�

  • 广域铭岛的工业AI精准决策三要素:实时数据、机理模型与反馈机制

    广域锚岛在2025世界人工智能大会上发布"Geega工业AI平台+工业智造超级智能体"双引擎,通过实时数据感知、工业Know-How与AI算法融合、决策-执行-验证闭环反馈三大能力,构建工业智能决策体系。该平台覆盖研发、生产、物流等全领域,日均处理百万级调度事务,使工作效率提升30%,年节省24000小时。其创新在于将行业机理知识内化为AI模型,并通过仿真验证持续优化,实现AI与制造业的深度耦合,推动工业智能化从理论走向规模化应用。

  • 主数据是什么?2025年如何选择主数据平台?

    文章探讨了主数据管理在企业数字化转型中的核心作用。普元信息作为国内主数据管理领域的领先企业,通过其主数据平台帮助企业解决数据不一致、系统割裂等问题。文章详细分析了主数据平台应具备的六大核心能力:灵活建模、数据质量管理、资产化闭环、共享服务、AI支持及合规安全,并提供了8步落地方案。普元凭借在央企和行业龙头企业的成功案例,验证了其解决方案在大规模复杂场景下的实施深度与可靠性。文章最后提出10个选型评估要点,强调主数据平台是企业长期治理能力的体现而非一次性技术投入。

  • 重磅!标贝科技推出「十万音色·自然语音数据集」 重构AI语音训练基础设施

    标贝科技发布"十万音色·自然语音数据集",覆盖中英双语,包含10万种音色样本(中文5万、英文5万),基于近百万小时原始数据经智能生产线精细打磨。该数据集在规模、真实性和准确性三大核心指标实现突破,支持多情感表达和跨场景应用,涵盖基础情绪到特定风格,话题涉及多个领域。通过音频质量筛选、文本转写校正、说话人分离等技术,从海量数据中甄选出高质量样本,为语音识别、合成等AI模型训练提供坚实基础,助力实现更自然、真实的语音交互体验。

  • 趣链科技入选“中国数据要素行业卓越服务厂商TOP30榜单”

    艾瑞咨询发布《2025年中国数据要素行业发展研究报告》,趣链科技入选"iResearch-卓越者"榜单,成为数据加工治理与产品化厂商代表。报告指出数据作为新生产要素正推动经济社会革新。趣链科技政务总经理邵羽表示,打通"最后一公里"需注重标准建设,公司已牵头参与200余项数字技术标准制定。其创新打造的可信数据空间通过中国信通院测评,为数据流通提供安全框架。此外,趣链推出数据要素系列服务,包括数据撮合、资产入表等,并在温州落地"车险人伤快速理赔"场景。此次入选验证了公司在行业深耕、技术能力等方面的卓越表现。未来将继续以科技支撑科学决策,助力高质量发展。

  • 告别“数据录入机器”:ToB智能体如何让CRM回归业务本质

    2025年腾讯全球数字生态大会上,销售易推出首款AI CRM产品NeoAgent,基于大模型技术重构企业销售流程。该产品通过语音指令自动完成客户拜访规划、关联历史数据并生成策略建议,实现从菜单点击到自然对话的交互变革。销售易通过"三阶跃迁"模式:解放双手的语音转结构化记录、突破菜单层级的智能检索、结合销售方法论的场景赋能,深度重构CRM系统。产品依托统一数据平台,实现多模态信息整合与权限管控,采用混合模型架构平衡响应速度与决策质量。目前已在米其林等企业应用中显著提升销售转化率,并通过"用户+流量"混合收费模式验证商业化路径。这标志着ToB领域AI正从效率工具向"数字同事"进化,其核心价值在于理解业务、适配场景并创造增量。

  • 数据库就要选华为云!

    文章讲述了作者10年前创业失败的经历,反思当时过度投入高端服务器和技术架构,却忽视了业务实际需求。如今随着云计算、大数据等技术发展,数据库架构设计更强调弹性、可靠性和智能化。游戏行业作为典型高并发场景,对数据库提出实时响应、高可用等严苛要求。华为云TaurusDB作为新一代云原生数据库,具备高性能(QPS达百万级)、弹性扩展(1写15读节点)、高可靠性(跨区部署、RPO为0)等优势,完美适配游戏行业需求。其核心技术包括计算存储分离、并行执行和NDP近数据处理,解决了传统MySQL架构的复制延迟等问题。文章建议企业选择与业务协同成长的数据库平台,而非从零搭建架构。

今日大家都在搜的词: