首页 > 传媒 > 关键词  > 数据资产最新资讯  > 正文

从阿里巴巴数据治理到瓴羊Dataphin

2023-06-26 17:53 · 稿源: 站长之家用户

我们深知,企业需要一套完善的数据技术与工具,实现数据合规采集、存储、计算、建 设和管理,利用数据思维对业务运营与管理场景问题精细洞察,学会利用数据资产改善能效,以此循环往复,推动数据资产的持续沉淀,形成企业特有的数据资产体系。

基于阿里巴巴内部的实践经验和成果,面向不同行业的实际业务场景Dataphin 应运而生,作为阿里巴巴统一方法论的工具化沉淀,Dataphin 希望能帮助企业探索更加复杂与多样的数据建设之路。

本次内容将以阿里巴巴数据治理的实践和统一数据治理方法论工具化沉淀的Dataphin为核心内容为大家详细介绍。

数据建设的三个阶段:从在线开发到平台构建到数据综合治理

从阿里自身的发展历程来看,数据建设可以分为以下三个阶段。

第 一个阶段:在线开发。在这个阶段更多是把所有数据搬上来,通过数据研发来满足基本业务需求和开发需求。数据规模相对不大,这一阶段的目标主要还是以响应需求为主。

第二阶段: 数据平台构建与管理。随着淘宝业务不断增长,对数据价值的诉求逐步加强,数据服务业务的场景也不断扩大。数据的多样性、数据处理的复杂度带来数据处理的作业呈现较大规模或较高水平的要求。这个时候就需要有一个数据平台来支撑数据仓库的开发。所以这一阶段的目标就是做数据平台的构建与管理,它对应的顶层和核心是要支持类似于生意参谋这样的面向于大量商家的应用。

第三阶段:数据综合治理。随着阿里集团的业务版图越来越大,我们的业务数据也越来越多,只做一个数据平台管一类数据,已经完全不能满足需求了。数据服务业务输出持续增多,业务数据化运营意识逐渐成熟,对数据价值的期待也越来越高,这个阶段就需要数据综合治理 ,以数据资产为中心开展所有的数据工作,以业务可理解、便捷可消费及服务业务的资产化组织和管理方向。所以这个阶段需要有更匹配的产品,有更好的体系,以数据资产为核心来做数据中台的建设。

大数据建设,不仅仅是研发效能的问题

从阿里巴巴的业务角度来看,大数据的建设不单是研发效率的问题,不是只要有一个工具就能够提高研发的效率,而是需要有一套体系化、理论化的东西来支撑整个数据中台的建设,我们把它分成四个维度:

数据标准:由于多形态业务发展迅猛,烟囱式开发及局部业务服务支撑,导致同名指标不同口径的问题频发;历史不同业务系统逐步迭代上线,相同对象属性编码不一致等问题突出。只有知道要做什么,明确每一种数据的口径表示,再着手业务和产品。

数据质量:需要有一种工具能保障最终输出的数据是符合这个口径的。重复业务建设导致任务链冗长、任务数繁多,计算资源紧张,数据时效性不好;另外,口径梳理定义的文档与开发代码脱节,数据准确性保障风险高,所以要保证数据质量就是要纠正数据,如果数据口径不对,需要有处理机制来做纠偏。

需求响应:烟囱式开发的开发周期长、效率低,面向应用的服务化不足,导致业务响应速度慢,业务不满且技术无沉淀;既懂业务又懂数据的人才不足,需求理解到开发实现涉及大量沟通。因为我们的数据工作还是要为业务服务,从业务的角度来看,没人不在意你使用什么工具,但是如果产品能够辅助提高需求响应的速度,那么将是一个非常有价值的事情。

成本资源:在做数据建设的时候还需要考量成本。烟囱式开发容易造成资源重复性浪费;上线难下线更难,源系统或业务变更不能及时反映到数据上,而且由于数据不标准,研发维护难上加难,大量无用计算和存储造成资源浪费。

不能为了把需求、标准、质量做得更全更快更好,就无限量地投入资源。在成本上也是需要去考量的,所以在数据治理的时候,需要综合这 4 个角度的指标来考察数据建设的成效。

阿里巴巴数据治理关键举措

将分散的数据集中管理,制定一套统一的管理标准,通过统一数据平台输出数据产品服务各个业务,整体从资源到资产进行转变。

1、工具+规范打造标准化采集:

为支撑整个数据平台的建设,第 一要务是打造标准。流量采集中,建立相应的日志埋点标准,将数据上传到日志采集中心,并通过各种采集工具、查看工具以及整套工具来管理和提升数据采集效率。同时,在埋点过程中,还需要制定相应规范并将其交予业务部门,这样业务同学才能看到相应埋点,并最终转换成实际数据。

2、闭环治理:

在数据标准制定后,我们需要搭建整个数据治理的架构。这个架构分为多个部分,第 一部分是内容治理。在这一方面,需要明确数据健康标准和数据治理对象,确定数据治理范围和相应的治理方案。而我们已经不再采取运动式或单点式的方案,转而采用产品化、体系化的方案,并出现了一些评估体系来帮助我们进行数据治理。

在阿里内部,我们根据每个人使用数据的情况给予健康分,当健康分低于标准时,就需要采取问责机制,让使用者推进自己的数据治理工作。而在存储、计算和价值产出方面,也需要建立完整的机制进行数据治理。

3、实战沉淀数据产品

经过多年实践,阿里巴巴提出的One Model数据模型已被行业广泛应用,该标准将整个数据中台分为三层,基础层又被称为ODS层,公共层或中间层则整合业务系统数据,并以主题方式组织,为顶层应用层提供数据服务。在应用层角度,数据会按照不同的业务方和应用场景组织。

经过多年的实践,我们总结出以下需要注意的要点:

首先,数据需要有系统化的组织。在数据建设初期,需要建立顶层框架,明确整个组织需要哪些数据,以及它们在哪些业务领域发挥作用。只有这样,我们才能比较准确地划分数据体系,进行合规采集、清洗和关联等工作。

其次,我们需要工具来有效地生产数据,有效的生产意味着避免重复生产并确保数据的质量。在这个过程中,技术人员需要积累经验并进行沉淀,技术本身应有沉淀。

第三,我们拥有完善的数据体系后,要向各个业务和应用场景提供便利的数据服务。目前已经形成了独具特色的大数据产品能力。也就是说,今天我们不仅要谈论平台和方法,我们需要将这些东西集成到一个产品中,集中于一个平台上,以承载整个实践过的最 佳方法论,我们把它称为“One Data”。

现在One Data方法论已产品化,即智能数据建设与治理Dataphin。

Dataphin智能数据建设与治理

Dataphin平台的数据架构分为四个方面,包括数据采集、数据构建、数据管理和数据使用。

首先,Dataphin的数据集成能力,将各个业务系统数据收集到统一数据平台,并提供数据构建能力,包括数据组织规划、定义、开发和标签提取。此过程中,还有很多辅助工具,如任务调度、运维和发布管理。

完成数据构建后,就需要数据管理能力,包括数据标准、质量、安全和资源消耗管理。为了确保数据能够被消费者使用,Dataphin还提供数据资产运营能力,如数据资产目录服务、数据资产上架服务、服务监控以及在线查询服务和API服务。

最后是数据消费能力,Dataphin可以与各个业务系统交互,同时也可以提供给Quick BI等报表展示工具和CDP引擎等广告投放和营销服务。

Dataphin 的核心的能力

Dataphin 的核心的能力主要是分成以下几块:

数据引入:全域数据可集成

Dataphin支持像Oracle、SAP等的HandleFTP,包括许多API方式来接入这些数据。 同时,在数据导入过程中,我们可以轻松清洗和转换数据,并将其输出到数据中心,同时还能够将处理好的数据提供给外部用户以更好地服务。

数据规范定义:高 消除二义性

数据规范定义是One Model最核心的规范之一。规范由阿里巴巴首创,很多数据平台也在使用。规范会将数据在宏观层面上分为数据板块、主题域、业务实体、业务活动和业务对象。首先对数据板块进行划分,然后在板块下进行主题域的划分,再对主题域下的业务实体进行分析。

业务实体分为两种类型。完成概念模型后,我们就会得到逻辑模型,在这个模型中,我们会识别每一个实体的属性,并将其形成概念模型。

举个例子,我们业务对象中的“客户”,客户会有姓名、年龄等属性。当我们列出实体的所有属性时,这些内容就构成了我们的逻辑模型,或者是逻辑表。在逻辑表上,我们可以定义原子指标业务限定。

原子指标指的是最小的、无法拆分的统计算子,例如销售金额、支付金额等。业务限定是为了确定范围,例如男性销售金额、大额销售金额等。这两者都是定义在逻辑模型之上的。派生指标是指我们分析指标时所使用的,具有业务意义的指标。所有指标都可以拆分成四个基本部分,第 一个是时间周期,例如最近 30 天的买家在无线端的预付金额就是一个有业务意义的指标。

Dataphin能够判断每个原子指标和业务线的定义是否与现有的定义重复,确保消除二义性。通过将所有内容拆分成最小的粒度,可以帮助用户更好地理解和组织其数据建设体系,以及规范模型的建设。

设计即开发:保障数据模型与代码的一致性

①分钟级自动化代码生成

当用户定义完成原子指标和业务限定后,需在界面上选择统计周期、统计粒度和原子指标,并确认业务限定。系统会自动为用户生成该指标的计算代码,用户无需干预,只需站在业务角度选择所需指标。系统即可完成所有后台代码生成,实现设计即开发。

②标签萃取更需要快速简单融入业务经验

除了进行模型和标准建设,我们还面向业务开发标签等服务。目前,以 RTC 为例,主要应用场景是在营销领域。为了为客户提供更完整的营销方案,我们会将 Dataphin 和Quick Audience两个产品进行整合。

Dataphin将行为偏好标签、行为统计标签和静态属性标签整合在一个标签平台中进行管理。同时,我们也与外部CDP平台进行打通,包括我们内部的Quick Audience平台,以便将这些数据推送给CDP平台,从而进行广告投放和其他营销活动。

数据资产管理:标准、质量、安全、资源

然后除了这个模型的建设以及标签的建设之外, Dataphin还提供了一个叫做资产的管理,我们资产的管理是叫做 360°全链路的数据洞察和管理。

首先,Dataphin提供的能力之一是数据标准化。我们可以接入国家标准、行业标准以及企业自定义的标准,并提供标准管理、类目维护、码表和词根等通用标准的能力。

第二,根据标准或用户自定义来定义一些质量规则。对于数据表,我们可以设置字段空值校验、唯 一值校验、波动性监测和字段比对等多种质量规则。

同时,Dataphin还具备数据安全能力,包括数据分类分级、脱敏和加密,并可提供可信的数据交换和交易。

最后,数据治理功能可以控制计算、存储资源消耗和成本,帮助用户更好地管理和治理数据资产。

主题式服务

除了数据采集和管理工具之外,我们还提供面向数据消费者的主题化服务。这项服务不仅支持通过搜索方式进行查询,还提供API及与其他工具的集成支持,让用户可以更加方便地利用我们的数据资源。由于我们并非完全基于物理表,而是拥有自己的数据模型,因此用户不再需要直接查询物理表、了解其表结构以及表与表之间的关联,仅需在逻辑模型上使用数据即可。

如某知名零售品牌企业,通过Dataphin进行系统化建设、规划数据方案,设计包括会员、商品交易和营销相关的零售板块用户主题,集成企业的营销、财务、CRM和ERP数据系统,通过提取,处理接近200TB数据,建立企业统一的用户数据平台,支持采购、供应链、运营和营销优化。

除了零售行业,Dataphin在工业制造、金融、传媒、地产、互联网等各领域都有深度应用。

更多Dataphin能力介绍及企业应用实践可查看白皮书《构建企业级“好数据“,Dataphin智能数据建设与治理》

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 金蝶征信召开高质量普惠研讨会:用“数据+场景”破解优质资产荒

    文章探讨了当前普惠金融背景下银行面临的新增贷款来源与优质客户识别难题。央行数据显示2025年上半年贷款余额增长但新增贷款首次负增长,凸显银行风控压力。金蝶征信通过发票数据等高质量信息补充传统银税互动,结合AI反欺诈技术识别虚假交易,帮助银行精准定位产业链中的优质小微客户。会议达成共识:高质量数据是基础,数据+场景是关键方法,高价值场景是突破口,推动普惠信贷从规模扩张转向质量提升。

  • 领星ERP:筑牢数据安全防线,契合数据合规标准,为跨境企业发展保驾护航!

    在数字化浪潮下,跨境企业运营愈发依赖数据支撑。数据安全与合规对跨境企业至关重要,尤其对计划上市的企业,数据泄露或违规操作可能面临高额罚款、损害声誉,影响上市进程。领星ERP作为跨境电商ERP市场领先的管理系统,构建了九大安全防护体系,从物理环境、网络硬件到数据管理、权限控制等多维度保障数据安全。同时,其业财一体化方案确保业务与财务数据无缝集成,符合不同国家财税法规,助力企业实现数据合规,为稳健发展提供坚实支撑。

  • 看了这些数据,就能明白Mistplay为何总是“最懂玩家”

    8月4日,第22届ChinaJoy在上海圆满落幕。游戏激励平台Mistplay成为BTOB展区热门展台,吸引了众多业内人士探讨中国游戏出海新方向。Mistplay通过分析玩家游戏习惯,精准匹配游戏产品,突破传统买量模式,实现玩家、平台、开发商三方共赢。其最新报告显示:解谜类游戏留存率最高;41%玩家希望获得登录奖励;67%玩家偏好实质性奖励。平台建议开发商采用个性化促销策略,如生日优惠、进度奖励等,并预测2025年激励系统将成为手游重要战略。Mistplay的数据分析为手游发行商提供了宝贵的市场洞察。

  • 主数据是什么?2025年如何选择主数据平台?

    文章探讨了主数据管理在企业数字化转型中的核心作用。普元信息作为国内主数据管理领域的领先企业,通过其主数据平台帮助企业解决数据不一致、系统割裂等问题。文章详细分析了主数据平台应具备的六大核心能力:灵活建模、数据质量管理、资产化闭环、共享服务、AI支持及合规安全,并提供了8步落地方案。普元凭借在央企和行业龙头企业的成功案例,验证了其解决方案在大规模复杂场景下的实施深度与可靠性。文章最后提出10个选型评估要点,强调主数据平台是企业长期治理能力的体现而非一次性技术投入。

  • ChatGPT安全漏洞被曝光:无需点击即可盗用户数据!

    据媒体报道,近日,OpenAI旗下连接器(Connectors)被曝存在安全漏洞。 据悉,用户无需点击,攻击者就能从ChatGPT连接的第三方应用窃取敏感数据,甚至窃取API密钥。

  • 50+案例见证!格创东智SPC让工序发声,用数据决策,筑牢半导体品质根基

    格创东智SPC系统通过实时数据采集与统计分析,实现半导体制造全流程质量监控。该系统覆盖数据接入、异常预警、闭环处理及持续优化,已助力50余家企业提升良率、降低成本。核心优势包括全链路数据覆盖、智能预警机制、多维分析工具及高效可视化操作,推动企业从经验决策转向数据驱动,迈向零缺陷制造目标。

  • 每日互动亮相2025可信数据空间推进大会

    8月21日,2025可信数据空间推进大会在京召开。每日互动首席数据官吕繁荣出席并发表演讲,系统阐释公司在可信数据空间领域的创新实践。其“发数站”平台入选标杆案例,通过“可信数据空间+可控大模型”技术组合,连接数据使用方、提供方和服务方,推动数据要素安全高效流通。目前该平台已在医疗、交通等30多个城市落地,助力数据价值释放与产业智能化升级。

  • 从数据到安心:全民钱包用科技让信任不再是空谈

    在网贷行业风险与合规双重约束的背景下,用户资金安全诉求与平台风控能力的匹配度已成为核心竞争力。全民钱包深耕消费信贷风控领域,依托自主研发的金睛风控系统(CRAM),构建了以大数据治理为基础、AI算法为核心的智能化风控体系,通过技术穿透实现风险的精准识别与高效拦截,为普惠金融场景提供了可量化的安全保障。一、风控技术底座:数据治理与特征工程的�

  • 金仓数据库守护中国铁路安全运行

    中国铁路集团开展"守底线、补缺陷、除隐患、防风险"安全专项行动,建设多功能线路巡防平台,采用金仓数据库技术实现云边端协同工作。该平台具有实时监控、智能分析等功能,2025年4月将在全国18个铁路局全面上线运行。系统采用读写分离高可用集群架构,支持自动容灾切换和负载均衡,确保铁路运输安全畅通。平台通过自主研发的加密技术保障数据安全,性能损�

  • 趣链科技入选“中国数据要素行业卓越服务厂商TOP30榜单”

    艾瑞咨询发布《2025年中国数据要素行业发展研究报告》,趣链科技入选"iResearch-卓越者"榜单,成为数据加工治理与产品化厂商代表。报告指出数据作为新生产要素正推动经济社会革新。趣链科技政务总经理邵羽表示,打通"最后一公里"需注重标准建设,公司已牵头参与200余项数字技术标准制定。其创新打造的可信数据空间通过中国信通院测评,为数据流通提供安全框架。此外,趣链推出数据要素系列服务,包括数据撮合、资产入表等,并在温州落地"车险人伤快速理赔"场景。此次入选验证了公司在行业深耕、技术能力等方面的卓越表现。未来将继续以科技支撑科学决策,助力高质量发展。

今日大家都在搜的词: