从阿里巴巴数据治理到瓴羊Dataphin

2023-06-26 17:53 · 稿源：站长之家用户

我们深知，企业需要一套完善的数据技术与工具，实现数据合规采集、存储、计算、建设和管理，利用数据思维对业务运营与管理场景问题精细洞察，学会利用数据资产改善能效，以此循环往复，推动数据资产的持续沉淀，形成企业特有的数据资产体系。

基于阿里巴巴内部的实践经验和成果，面向不同行业的实际业务场景Dataphin 应运而生，作为阿里巴巴统一方法论的工具化沉淀，Dataphin 希望能帮助企业探索更加复杂与多样的数据建设之路。

本次内容将以阿里巴巴数据治理的实践和统一数据治理方法论工具化沉淀的Dataphin为核心内容为大家详细介绍。

数据建设的三个阶段：从在线开发到平台构建到数据综合治理

从阿里自身的发展历程来看，数据建设可以分为以下三个阶段。

第一个阶段：在线开发。在这个阶段更多是把所有数据搬上来，通过数据研发来满足基本业务需求和开发需求。数据规模相对不大，这一阶段的目标主要还是以响应需求为主。

第二阶段：数据平台构建与管理。随着淘宝业务不断增长，对数据价值的诉求逐步加强，数据服务业务的场景也不断扩大。数据的多样性、数据处理的复杂度带来数据处理的作业呈现较大规模或较高水平的要求。这个时候就需要有一个数据平台来支撑数据仓库的开发。所以这一阶段的目标就是做数据平台的构建与管理，它对应的顶层和核心是要支持类似于生意参谋这样的面向于大量商家的应用。

第三阶段：数据综合治理。随着阿里集团的业务版图越来越大，我们的业务数据也越来越多，只做一个数据平台管一类数据，已经完全不能满足需求了。数据服务业务输出持续增多，业务数据化运营意识逐渐成熟，对数据价值的期待也越来越高，这个阶段就需要数据综合治理，以数据资产为中心开展所有的数据工作，以业务可理解、便捷可消费及服务业务的资产化组织和管理方向。所以这个阶段需要有更匹配的产品，有更好的体系，以数据资产为核心来做数据中台的建设。

大数据建设，不仅仅是研发效能的问题

从阿里巴巴的业务角度来看，大数据的建设不单是研发效率的问题，不是只要有一个工具就能够提高研发的效率，而是需要有一套体系化、理论化的东西来支撑整个数据中台的建设，我们把它分成四个维度：

数据标准：由于多形态业务发展迅猛，烟囱式开发及局部业务服务支撑，导致同名指标不同口径的问题频发；历史不同业务系统逐步迭代上线，相同对象属性编码不一致等问题突出。只有知道要做什么，明确每一种数据的口径表示，再着手业务和产品。

数据质量：需要有一种工具能保障最终输出的数据是符合这个口径的。重复业务建设导致任务链冗长、任务数繁多，计算资源紧张，数据时效性不好；另外，口径梳理定义的文档与开发代码脱节，数据准确性保障风险高，所以要保证数据质量就是要纠正数据，如果数据口径不对，需要有处理机制来做纠偏。

需求响应：烟囱式开发的开发周期长、效率低，面向应用的服务化不足，导致业务响应速度慢，业务不满且技术无沉淀；既懂业务又懂数据的人才不足，需求理解到开发实现涉及大量沟通。因为我们的数据工作还是要为业务服务，从业务的角度来看，没人不在意你使用什么工具，但是如果产品能够辅助提高需求响应的速度，那么将是一个非常有价值的事情。

成本资源：在做数据建设的时候还需要考量成本。烟囱式开发容易造成资源重复性浪费；上线难下线更难，源系统或业务变更不能及时反映到数据上，而且由于数据不标准，研发维护难上加难，大量无用计算和存储造成资源浪费。

不能为了把需求、标准、质量做得更全更快更好，就无限量地投入资源。在成本上也是需要去考量的，所以在数据治理的时候，需要综合这 4 个角度的指标来考察数据建设的成效。

阿里巴巴数据治理关键举措

将分散的数据集中管理，制定一套统一的管理标准，通过统一数据平台输出数据产品服务各个业务，整体从资源到资产进行转变。

1、工具+规范打造标准化采集：

为支撑整个数据平台的建设，第一要务是打造标准。流量采集中，建立相应的日志埋点标准，将数据上传到日志采集中心，并通过各种采集工具、查看工具以及整套工具来管理和提升数据采集效率。同时，在埋点过程中，还需要制定相应规范并将其交予业务部门，这样业务同学才能看到相应埋点，并最终转换成实际数据。

2、闭环治理：

在数据标准制定后，我们需要搭建整个数据治理的架构。这个架构分为多个部分，第一部分是内容治理。在这一方面，需要明确数据健康标准和数据治理对象，确定数据治理范围和相应的治理方案。而我们已经不再采取运动式或单点式的方案，转而采用产品化、体系化的方案，并出现了一些评估体系来帮助我们进行数据治理。

在阿里内部，我们根据每个人使用数据的情况给予健康分，当健康分低于标准时，就需要采取问责机制，让使用者推进自己的数据治理工作。而在存储、计算和价值产出方面，也需要建立完整的机制进行数据治理。

3、实战沉淀数据产品

经过多年实践，阿里巴巴提出的One Model数据模型已被行业广泛应用，该标准将整个数据中台分为三层，基础层又被称为ODS层，公共层或中间层则整合业务系统数据，并以主题方式组织，为顶层应用层提供数据服务。在应用层角度，数据会按照不同的业务方和应用场景组织。

经过多年的实践，我们总结出以下需要注意的要点：

首先，数据需要有系统化的组织。在数据建设初期，需要建立顶层框架，明确整个组织需要哪些数据，以及它们在哪些业务领域发挥作用。只有这样，我们才能比较准确地划分数据体系，进行合规采集、清洗和关联等工作。

其次，我们需要工具来有效地生产数据，有效的生产意味着避免重复生产并确保数据的质量。在这个过程中，技术人员需要积累经验并进行沉淀，技术本身应有沉淀。

第三，我们拥有完善的数据体系后，要向各个业务和应用场景提供便利的数据服务。目前已经形成了独具特色的大数据产品能力。也就是说，今天我们不仅要谈论平台和方法，我们需要将这些东西集成到一个产品中，集中于一个平台上，以承载整个实践过的最佳方法论，我们把它称为“One Data”。

现在One Data方法论已产品化，即智能数据建设与治理Dataphin。

Dataphin智能数据建设与治理

Dataphin平台的数据架构分为四个方面，包括数据采集、数据构建、数据管理和数据使用。

首先，Dataphin的数据集成能力，将各个业务系统数据收集到统一数据平台，并提供数据构建能力，包括数据组织规划、定义、开发和标签提取。此过程中，还有很多辅助工具，如任务调度、运维和发布管理。

完成数据构建后，就需要数据管理能力，包括数据标准、质量、安全和资源消耗管理。为了确保数据能够被消费者使用，Dataphin还提供数据资产运营能力，如数据资产目录服务、数据资产上架服务、服务监控以及在线查询服务和API服务。

最后是数据消费能力，Dataphin可以与各个业务系统交互，同时也可以提供给Quick BI等报表展示工具和CDP引擎等广告投放和营销服务。

Dataphin 的核心的能力

Dataphin 的核心的能力主要是分成以下几块：

数据引入：全域数据可集成

Dataphin支持像Oracle、SAP等的HandleFTP，包括许多API方式来接入这些数据。同时，在数据导入过程中，我们可以轻松清洗和转换数据，并将其输出到数据中心，同时还能够将处理好的数据提供给外部用户以更好地服务。

数据规范定义：高消除二义性

数据规范定义是One Model最核心的规范之一。规范由阿里巴巴首创，很多数据平台也在使用。规范会将数据在宏观层面上分为数据板块、主题域、业务实体、业务活动和业务对象。首先对数据板块进行划分，然后在板块下进行主题域的划分，再对主题域下的业务实体进行分析。

业务实体分为两种类型。完成概念模型后，我们就会得到逻辑模型，在这个模型中，我们会识别每一个实体的属性，并将其形成概念模型。

举个例子，我们业务对象中的“客户”，客户会有姓名、年龄等属性。当我们列出实体的所有属性时，这些内容就构成了我们的逻辑模型，或者是逻辑表。在逻辑表上，我们可以定义原子指标业务限定。

原子指标指的是最小的、无法拆分的统计算子，例如销售金额、支付金额等。业务限定是为了确定范围，例如男性销售金额、大额销售金额等。这两者都是定义在逻辑模型之上的。派生指标是指我们分析指标时所使用的，具有业务意义的指标。所有指标都可以拆分成四个基本部分，第一个是时间周期，例如最近 30 天的买家在无线端的预付金额就是一个有业务意义的指标。

Dataphin能够判断每个原子指标和业务线的定义是否与现有的定义重复，确保消除二义性。通过将所有内容拆分成最小的粒度，可以帮助用户更好地理解和组织其数据建设体系，以及规范模型的建设。

设计即开发：保障数据模型与代码的一致性

①分钟级自动化代码生成

当用户定义完成原子指标和业务限定后，需在界面上选择统计周期、统计粒度和原子指标，并确认业务限定。系统会自动为用户生成该指标的计算代码，用户无需干预，只需站在业务角度选择所需指标。系统即可完成所有后台代码生成，实现设计即开发。

②标签萃取更需要快速简单融入业务经验

除了进行模型和标准建设，我们还面向业务开发标签等服务。目前，以 RTC 为例，主要应用场景是在营销领域。为了为客户提供更完整的营销方案，我们会将 Dataphin 和Quick Audience两个产品进行整合。

Dataphin将行为偏好标签、行为统计标签和静态属性标签整合在一个标签平台中进行管理。同时，我们也与外部CDP平台进行打通，包括我们内部的Quick Audience平台，以便将这些数据推送给CDP平台，从而进行广告投放和其他营销活动。

数据资产管理：标准、质量、安全、资源

然后除了这个模型的建设以及标签的建设之外， Dataphin还提供了一个叫做资产的管理，我们资产的管理是叫做 360°全链路的数据洞察和管理。

首先，Dataphin提供的能力之一是数据标准化。我们可以接入国家标准、行业标准以及企业自定义的标准，并提供标准管理、类目维护、码表和词根等通用标准的能力。

第二，根据标准或用户自定义来定义一些质量规则。对于数据表，我们可以设置字段空值校验、唯一值校验、波动性监测和字段比对等多种质量规则。

同时，Dataphin还具备数据安全能力，包括数据分类分级、脱敏和加密，并可提供可信的数据交换和交易。

最后，数据治理功能可以控制计算、存储资源消耗和成本，帮助用户更好地管理和治理数据资产。

主题式服务

除了数据采集和管理工具之外，我们还提供面向数据消费者的主题化服务。这项服务不仅支持通过搜索方式进行查询，还提供API及与其他工具的集成支持，让用户可以更加方便地利用我们的数据资源。由于我们并非完全基于物理表，而是拥有自己的数据模型，因此用户不再需要直接查询物理表、了解其表结构以及表与表之间的关联，仅需在逻辑模型上使用数据即可。

如某知名零售品牌企业，通过Dataphin进行系统化建设、规划数据方案，设计包括会员、商品交易和营销相关的零售板块用户主题，集成企业的营销、财务、CRM和ERP数据系统，通过提取，处理接近200TB数据，建立企业统一的用户数据平台，支持采购、供应链、运营和营销优化。

除了零售行业，Dataphin在工业制造、金融、传媒、地产、互联网等各领域都有深度应用。

更多Dataphin能力介绍及企业应用实践可查看白皮书《构建企业级“好数据“，Dataphin智能数据建设与治理》

（推广）

特别声明：以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布，本平台仅提供信息存储服务，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任，相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述法律文件后，将会依法依规核实信息，沟通删除相关内容或断开相关链接。

相关推荐

关键词：

重磅预告：全链路自主进化 AI 数据分析师 TabTab 将于10月24日上线

灵快科技推出的AI数据分析师TabTab将于10月24日上线。该产品通过Multi-Agent系统实现全链路自动化数据分析，覆盖数据获取、建模到可视化全流程。用户可用自然语言交互，系统自主规划任务并输出可维护结果，支持Excel、PPT等多种报告格式。核心定位为智能数据分析助手，旨在降低分析门槛，助力企业高效挖掘数据价值，适用于数据分析师、营销人员等各类用户。

AI数据分析 Multi-Agent系统数据可视化
从“选配内卷”到“标配破局”，元戎启行凭交付数据突围

2025年辅助驾驶赛道核心看点已从技术落地转向规模化交付。元戎启行表现亮眼：累计交付超13万辆，9月单月突破3万辆，成为继华为后第三家实现“单月3万+全系标配城市NOA”的供应商。其成功源于与魏牌高山、蓝山及吉利银河M9等爆款车型的深度合作，通过“标配智驾”打造差异化优势。元戎专注“单车规模化交付”策略，避免多车型分散资源，以用户体验驱动行业价值重构，标志着第三方供应商正以交付能力重塑竞争格局。

辅助驾驶规模化交付元戎启行
国产化率达100%！温州港TOS成功“换芯”金仓数据库

浙江省首个信创版港口集装箱码头生产操作系统n-TOS及配套中心业务处理系统CTOS在温州港乐清湾港区上线运行。系统采用海光CPU、银河麒麟操作系统等全栈国产软硬件，国产化率达100%，安全性和稳定性通过全面验证。金仓数据库助力实现Oracle数据库的平滑迁移，确保业务零改造上线。该系统作为港口"智慧大脑"，管理集装箱装卸、堆存等全流程业务，标志着浙江海港在码头核心系统自主可控方面迈出关键一步，为后续推广提供样板。

信创版海港集装箱码头 n-TOS系统全栈国产化
软博会双奖加冕！太极华青打造政务数据共享新标杆

10月15日至17日，中国国际软件博览会在郑州举办，聚焦“开源构筑新生态+软件智造新未来”。太极华青公司开发的普通省道和农村公路“以奖代补”考核数据支撑系统入选优秀创新软件推广名录，其母公司兴财科技凭借政务人工智能大模型应用荣膺软件与信息技术服务名牌企业。文章强调政务数据共享在提升政府治理效能中的关键作用，并指出《政务数据共享条例》实施将进一步夯实法治基础，推动跨部门、跨层级数据整合，强化资金绩效全流程管理。

中国国际软件博览会开源生态软件创新
AI时代品牌营销致胜秘诀：用数据驱动GEO优化，让AI排名持续在线

当DeepSeek、豆包、文心一言等AI助手成为10亿用户的信息入口，品牌面临生死抉择：要么出现在AI推荐中，要么彻底消失。文章指出，AI营销与传统SEO完全不同，是一场没有终点的动态竞赛，需要持续投入和调整。品牌需建立“监测-分析-优化”闭环机制，使用专业工具实时监控排名波动，快速响应算法迭代和用户提问变化。成功关键在于让AI“看见”并“信任”品牌，通过补充权威数据、多媒体内容、长尾语义覆盖等方式提升可信度，在流量红利期抢占先机。
中国贡献！全球首个专注于文物艺术品溯源元数据的国际标准正式通过

2025年10月17日，国际电信联盟通过全球首个文物艺术品溯源元数据国际标准，由中国企业易元数字主导制定。该标准基于分布式账本技术，构建统一元数据框架，填补全球文物数字化管理长期空白，助力跨文明信息联通与文明互鉴，为文化遗产保护提供技术支撑。

国际电信联盟文物艺术品溯源元数据标准
守护用户数据安全，OPPO 携火山引擎发布《移动 Agent 安全技术白皮书》

在OPPO开发者大会上，OPPO联合火山引擎等机构发布《移动Agent安全技术白皮书》，宣布打造隐私计算云系统，通过端云协同架构构建用户数据全生命周期的“安全长城”。该系统结合火山引擎AI机密计算方案，实现端到端加密，确保数据“可用不可见”，任何人与系统均无法获取用户数据。双方将持续深化合作，致力于AI时代的数据安全治理，让用户享受AI便利的同时更安全放心。

OPPO 移动Agent安全技术白皮书私密计算云
“数境杯”数据智能创新应用大赛-工业互联网数据创新应用专业赛（第八届）圆满落下帷幕

2025年10月16日，第八届“数境杯”工业互联网数据创新应用专业赛颁奖仪式在深圳举行。本届大赛以“数据赋能，智领未来”为主题，聚焦工业数据应用，联合多家高校与企业设置三大创新赛道。经过6个月角逐，27支队伍从2700余支参赛团队中脱颖而出。同期发布“十大工业大数据算法”，这些成果汇聚历届赛事智慧，精准解决行业痛点，推动数据价值转化。八届赛事累计吸引超5万人参与，挖掘近40组工业数据集，培育了一批复合型人才，为制造业数字化转型营造了良好创新生态。

数据智能工业互联网创新应用
Gartner评选全球22家数据湖仓平台，腾讯云为中国唯一入选厂商

国际研究机构Gartner发布《湖仓一体平台市场指南》，腾讯云凭借自研云原生Serverless湖仓引擎DLC入选全球22家代表厂商，成为唯一入选的中国企业。报告指出，湖仓架构正成为企业数据平台新标准，融合数据湖灵活性与数据仓库高效管理。腾讯云DLC已助力超100家客户完成架构转型，覆盖互联网、教育、零售等行业，显著提升数据处理效率并降低成本。

云原生数据技术 Gartner报告
金仓数据库助力国家电网智慧计量工控系统上线

国家电网在山东电力、河南电力两家超大型省公司成功试点上线智慧计量实验室（工控部分），系统运行稳定。以金仓数据库为支撑，实现关键计量设备数据高效管理与分析，标志着国网在构建现代先进测量体系道路上迈出关键一步。项目采用国产化技术路径，完成所有环节实施工作，确保系统国产化替换平稳上线，为零代码修改、高效迁移集成适配提供实践路径，为后续全国推广积累经验。

国家电网智慧计量实验室金仓数据库

今日大家都在搜的词：

热文

3 天
7天

从阿里巴巴数据治理到瓴羊Dataphin

重磅预告：全链路自主进化 AI 数据分析师 TabTab 将于10月24日上线

从“选配内卷”到“标配破局”，元戎启行凭交付数据突围

国产化率达100%！温州港TOS成功“换芯”金仓数据库

软博会双奖加冕！太极华青打造政务数据共享新标杆

AI时代品牌营销致胜秘诀：用数据驱动GEO优化，让AI排名持续在线

中国贡献！全球首个专注于文物艺术品溯源元数据的国际标准正式通过

守护用户数据安全，OPPO 携火山引擎发布《移动 Agent 安全技术白皮书》

“数境杯”数据智能创新应用大赛-工业互联网数据创新应用专业赛（第八届）圆满落下帷幕

Gartner评选全球22家数据湖仓平台，腾讯云为中国唯一入选厂商

金仓数据库助力国家电网智慧计量工控系统上线

今日大家都在搜的词：

热文

五大升级！红米REDMI K90标准版采用6.59英寸黄金中尺寸

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”

华为FreeClip 2耳夹耳机正式开售：售价1299元搭载NPU AI处理器

iOS 26液态玻璃效果能关了苹果iOS 26.1 Beta 4新增液态玻璃开

AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停So

天猫双11今晚8点开卖品类券每人可领万元

余承东官宣华为路由X3 Pro 采用“日照金山”设计

火车免费坐？12306今起又上新功能：积分可兑换车票

REDMI K90 Pro Max本周四发布卢伟冰：给4K档一点小小的震撼

REDMI K90 Pro Max搭载小米17同款光影猎人950超大底主摄

五大升级！红米REDMI K90标准版采用6.59英寸黄金中尺寸

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”

华为FreeClip 2耳夹耳机正式开售：售价1299元搭载NPU AI处理器

AI日报：谷歌Gemini 3.0 Pro小范围推送；爱诗科技完成1亿元B+轮

iOS 26液态玻璃效果能关了苹果iOS 26.1 Beta 4新增液态玻璃开

王腾首次回应下一步计划：称在考虑些创业项目

REDMI K90 Pro Max外观公布：后置BOSE认证扬声器

红米REDMI K90 Pro Max丹宁色亮相采用第三代科纳皮设计

AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停So

天猫双11今晚8点开卖品类券每人可领万元

站长商机