首页 > 传媒 > 关键词  > 混合云最新资讯  > 正文

开放、兼容的数据建设与治理平台——瓴羊Dataphin“进化论”

2025-01-20 14:52 · 稿源: 站长之家用户

作者:江岚  阿里云瓴羊智能科技高档技术专家

随着十四五“数字中国”规划的不断深入,我国企业对数据治理和数据资产建设的广阔需求依然亟待激活。不过,由于数据分析领域长期处于高速发展阶段,加上国内参差不齐的供给现状,“看不懂”、“跟不上”、“学不会”、“用不起”仍是大多数企业的真实感受。

从ELT、Data Fabric、Semantic Layer、DataOps,再到Lakehouse和流批一体,近几年,全球数据分析领域的“热词”层出不穷、令人目不暇接。行业发展脉络存在共性,细究其中,可以提炼出三大主题:统一的基础设施、统一的中间层、统一的数据资产。

瓴羊「数据荟」数据Meet Up 第 3 站线上开讲,来自中国信通院、瓴羊与企业大数据团队的多位技术专家齐聚一堂,共话大模型时代的数据治理创新实践。阿里云智能集团瓴羊高档技术专家江岚以Dataphin为例,从多引擎兼容、混合云架构、统一资产消费的应对策略,分享了“开放、兼容的数据建设与治理平台”的技术架构与实践路径。

作为阿里巴巴全资子公司瓴羊的代表产品,Dataphin长期专注于数据治理环节,通过运用阿里巴巴“OneData”方法论,持续打造统一的数据基建、高质量的数据资产。近日,瓴羊Dataphin宣布全新功能升级,推出Dataphin敏捷版、半托管及DataAgent智能体,以更普惠、可扩展性和开放性的架构更新,为广大企业“建好数据”、“用好数据”打好基础。分析人士认为,瓴羊Dataphin的本轮升级,是其一次意义重大的变化,反映了能力架构、底层技术的全面演进。

从混合云架构到安全管控,企业数据治理面临哪些挑战?

瓴羊,脱胎于阿里巴巴这座“比较优秀工厂”的数字化实践,旨在将内部经验系统化、产品化地向千行百业进行输出。作为瓴羊旗下的智能数据建设与治理工具,Dataphin能够提供一站式的采、建、管、用的大数据能力,涵盖企业数据资产的建设、治理、消费等不同环节。自 2018 年上线以来,瓴羊Dataphin已服务了百余家客户,覆盖了餐饮、通信、乳品、汽车等多个行业。

以往,用户在使用Dataphin时,首要任务是配置集成管道,将业务库数据同步至数据库,并通过代码研发、规范建模等多种方式对数据进行加工处理。加工后的数据或通过集成管道任务回流至用户生产库,或通过配置数据服务API供下游系统使用。

在服务合作伙伴的过程中,瓴羊Dataphin发现,由于部署环境、引擎类型、治理目标等方面的差异,企业数据治理的需求变得越发精细和复杂,给平台既有的功能提出了诸多挑战。

一方面,许多企业迫切需要打通整个数据生产消费链路,不只限于传统的数据仓库环节,而是实现全域的数据资产治理。另一方面,不少企业的数据资产不再处于单一云环境,而是既涉及公共云、也涉及线下IDC机房,因而需要支持混合云架构的数据治理工具。同时,不少企业开展信创工作,众多国产化的引擎确实给兼容适配带来了不小的挑战。

因此,本轮产品升级的背后,是瓴羊Dataphin围绕数据治理的一线场景需求,通过持续的研发投入和自我迭代,实现了“多引擎适配”、“混合云统一调度”、“统一消费出口”三个层面的全新升级,从而与诸多企业伙伴共同进步,更好顺应“统一基建”、“全域治理”的行业发展趋势。

从多引擎兼容到统一资产消费,Dataphin的成果与经验

企业所使用的引擎各不相同,如果没有一个设计良好的多引擎中间件,就有可能带来重复的引擎对接成本,乃至潜在的类冲突和处理逻辑不一致的风险。如何适配数据库产业生态现存的众多引擎,是摆在瓴羊Dataphin面前的首先项难题。

目前,多引擎适配模式存在富客户端、轻客户端两种模式。富客户端直接对接引擎,网络开销少,且无单点瓶颈的风险;轻客户端压力小,无类冲突风险,且服务端可实现统一版本管理。

瓴羊Dataphin结合富/轻客户端两者优势,通过“多引擎SDK+插件”的模式,提炼出了SQL、File、Schema三大API接口,每种插件相互独立的同时,还增设了类隔离的机制,确保多引擎的处理逻辑对业务代码没有侵入,最终通过JAR包的合并,有效减少了部署资源。截至目前,瓴羊Dataphin不仅支持公共云多租户、独立部署、私有云部署等环境,还实现了对MaxCompute、EMR、CDH等十余种主流大数据计算引擎的适配,通过插件化模式,也降低了后续新引擎的兼容成本。

混合云架构方面的挑战则更加复杂:有的企业出于信息安全性考虑,部分业务只能存于线下IDC机房,同时拥有公共云和私有云环境,导致管理和运维的难度大大增加。

为此,瓴羊Dataphin采用了外部调度集群技术可以同时管理多个Kubernetes集群的资源,由调度模块负责在指定的集群上拉取任务配置并调起任务。这一设计使得平台能够有效地在混合云环境中调度和执行数据任务,有效避免跨网络的访问限制,并大大提升集成性能。

具体而言,在数据集成场景,瓴羊Dataphin实现了一套集群对多个云环境的调度,仅任务调度需要跨网络,而数据本身无需经过专线网络传输,降低了跨网络传输的成本和复杂性。而在资产采集场景,平台通过配置元数据采集任务,手动或周期性地运行采集任务,将采集到的资产元数据写入存储,以供后续的数据消费链路使用。此外,瓴羊Dataphin通过于外部集群中拉起的数据服务常驻容器,确保了数据服务场景的灵活性、安全性和隐私性。

在数据资产消费时,企业常常面临着资产分散、权限管理不一致、使用链路长等问题。为了实现统一的资产消费,瓴羊Dataphin提供了标准的JDBC接口,通过多引擎插件对接底层数据库,打造了仅有的消费出口,实现了对底层数据的统一访问。

更值得注意的是,Dataphin还实现了瓴羊旗下BI工具——Quick BI的无缝对接,资产消费可以自动创建Quick BI的数据源以及数据集,并且减少用户查看数据的操作成本。

目前,Dataphin提供了丰富的资产消费方式,不论是自助取数、数据探查还是接口调用,企业无需复杂处理链路,即可轻松实现数据分析和可视化展示。

从全域资产运营到AI+,数据资产运营将去向何方?

在企业数字化浪潮中,有越来越多企业通过瓴羊Dataphin,实现了数据资产的采、建、管、用,在数据洞察力提升的同时,也挖掘出了隐藏在资产之中的价值。

相较以前,如今的瓴羊Dataphin功能架构得到了多重升级,不仅引擎兼容性增强,支持多种类型的数据源,还丰富了资产消费的形式,此外,瓴羊Dataphin还新增支持了混合云的部署模式和公共云半托管模式,能让企业以最小的成本实现复杂网络环境下的部署,由此,平台的覆盖范围不再局限于数据仓库,而是朝着实现全域资产运营的目标迈进。

在未来,瓴羊Dataphin将持续深化采、建、管、用的一体化平台定位,沿着数据资产建设-治理-消费的路径不断完善。在建设方面,平台将对接更多种类的引擎、支持更大规模的统一调度和运维,还将上线拖拽式标签工厂等;在治理方面,平台将打造统一的元数据中心,让企业的数据资产“标准可循、质量可靠、安全可控、成本经济”;在消费方面,瓴羊Dataphin已经推出资产目录管理、资产搜索及查看等运营功能,未来还将上线资产门户、质量报告等。

随着大模型时代到来,瓴羊Dataphin也将积极拥抱AI技术,探索“数智结合”的资产运营手段。比如,在智能问数的帮助下,用户无需技术背景即可问询需要的数据,极大地降低了数据分析的门槛;通过智能特征识别、智能分类分级等手段,提高资产质量和生产效率。

在产业、政策、技术等多种因素的影响下,我国的数据治理领域仍然方兴未艾,如何在高速变化的外部环境下,为不同企业提供个性、易用、专业、安全的治理体验,仍然是横亘在产业各方面前的重要课题。未来,依托阿里巴巴数字化转型经验,瓴羊Dataphin有望以持续的迭代和演进,为企业打造全生命周期的数据资产解决方案,帮助千行百业“建好数据”、“用好数据”。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 解锁时空数据价值!及刻开放平台重磅上线,精选API服务在线体验!

    2025年6月5日,中国深圳线下场景数字化服务商及刻宣布推出"及刻开放平台"(data.isjike.com),该平台依托智能场景识别、线下数据挖掘等核心技术,整合多维度高价值时空数据资源,通过标准化API接口为开发者和企业提供低成本、高效的数据接入服务。平台覆盖全国300余座城市的海量线下POI点位、基站、移动终端及WiFi节点等动态场景感知网络,首批开放API涵盖场景识别、客流分析、区域热力等核心功能,可应用于数字金融、智慧城市、商业零售等多个领域。平台采用先进匿名化、去标识化等技术确保数据合规性,助力企业数字化转型和创新。未来将持续扩展数据维度,共建开放共赢的数据生态圈。

  • AI竞争关键在于“数据竞赛”, 星环科技AI-Ready Data Platform成破局密钥

    文章探讨了大模型技术红利窗口正在收窄的行业现状。随着Transformer架构主导的算法同质化,模型性能差异从技术代差演变为工程优化。同时指出企业80%非结构化数据仍处于沉睡状态,包括设备日志、工艺文档等数据金矿未被有效开采。在此背景下,企业AI能力建设重心正从"模型军备竞赛"转向"数据基建深耕"。 星环科技发布的AI-Ready Data Platform通过架构革命、治理跃迁与工具链进化三个维度的创新,构建从数据沉淀到AI落地的全栈数据能力。该平台实现了11种模型数据的统一存储管理,并凭借实时湖仓集技术构建端到端秒级分析体系。在金融和制造业的实践中,该平台显著提升了数据处理效率和决策响应速度,验证了数据基础设施重构的商业价值。

  • 火山引擎Data Agent体验中心正式上线!企业级AI数据专家触手可及

    火山引擎数智平台开放企业级数据智能体Data Agent体验中心,用户可零门槛体验"企业数字专家"在数据垂直领域的深度能力。该产品定位为"企业第一位AI数据专家",已上线股票分析、经营复盘、营销策略等6大场景应用。通过"数据+知识"融合、人机协同等核心价值,突破传统分析工具边界,实现从描述性分析到行动建议的跨越。作为L3级智能体,它能将企业内外部信息转化为可量化数字资产,显著降低数据使用门槛,提升决策效率。Gartner预测到2028年至少15%的日常决策将由AI自主完成。火山引擎此举标志着企业数据应用正式进入"动态智能体"时代。

  • 水滴信用开放平台开放支持企业大数据MCP企业信息查询场景

    水滴信用企业大数据平台拥有覆盖全国3.7亿市场主体的企业信用图谱,提供1000+维度的企业数据查询服务。其核心功能包括:工商注册、股东出资、司法诉讼、经营异常等基础信息实时更新;深度风险扫描涵盖行政处罚、股权冻结等全面监控;商业能力洞察包含知识产权、招投标等实力评估;关系网络透视可穿透至最终自然人。平台已上线火山引擎COZE插件,调用量超8000万次,支持金融风控、供应链管理、政府监管等多场景应用,通过MCP技术实现数据智能融合与深度挖掘,推动企业信息查询从静态检索升级为动态智能洞察。

  • 谷歌“坟场”再添一员:将于 12 月关闭 Instant Apps!

    2017 年首次推出的 Instant Apps 功能将于 2025 年 12 月正式退役。届时,用户只能回归“老老实实用网页”的生活方式了……

  • AI日报:美团No Code平台免费开放;豆包App升级“一句话P图”功能;苹果Xcode 26内置ChatGPT等AI功能

    本文介绍了AI领域多项重要进展:1)美团推出No Code平台和1680个AI应用;2)豆包App升级"一句话P图"功能;3)苹果发布内置ChatGPT的Xcode26开发工具;4)iOS26新增视觉智能功能;5)讯飞星火X1升级版即将发布;6)比亚迪接入阿里通义大模型;7)DeepSeek支持本地工具调用;8)开源框架Rowboat支持快速构建智能助手;9)X平台整合Grok AI优化内容推荐;10)港科大开发进化搜索技术提升小模型图像生成能力;11)硅基流动完成数亿元融资;12)港大与英伟达合作开发新型视觉注意力机制。这些创新展示了AI技术在各领域的快速发展和应用突破。

  • 慧科讯业AI赋能数据标签化,破局多模态数据治理难题

    文章探讨了数字化浪潮下数据标签化的重要性及其商业应用。数据标签化作为大数据分析的基础,能帮助企业实现精准营销和智能决策。然而,多模态数据处理复杂、人工标注成本高、业务理解不足等问题制约了数据价值的释放。文章提出数据标签化在构建用户画像、舆情监控、市场趋势预测等场景中的核心价值,并分析了当前面临的挑战:包括传统NLP算法不精准、大语言模型成本高且不稳定等。慧科讯业通过TDaaS服务模式,结合行业领先的数据源、NLP技术和垂直知识图谱,为企业提供高效的数据标注解决方案,显著提升数据处理效率。未来,随着AI技术发展,知识图谱驱动的TDaaS模式将重新定义数据价值变现方式。

  • 破局多模态数据治理难点,数据标注重构企业营销新基建

    文章探讨了AI数据标注行业的发展现状与未来趋势。主要内容包括:1)AI数据标注已成为企业数字化转型的核心基础设施,92.9%数据为非结构化形态;2)营销领域多模态数据融合正在重塑商业决策模式;3)慧科讯业等企业通过TDaaS服务帮助客户构建数据资产;4)数据标注服务商分为国际头部、自有生态型、垂直领域型和综合营销数字化型四类;5)未来趋势包括AI驱动的自动化标注、数据合规升级和人机协同模式创新。文章强调,高质量数据标注服务将助力企业实现从"可用"到"可信高效"的数字化转型。

  • 苹果iOS 26支持机型一览:兼容iPhone 11以及以上设备

    苹果公司今日宣布推出iOS26操作系统,这一版本被视为自iOS7发布以来最具颠覆性的更新。新系统引入了液态玻璃界面设计及多项AI驱动功能,对硬件性能提出更高要求,因此适配机型范围较前代有所调整。 根据官方公布的信息,iOS26将仅支持iPhone11系列及后续机型,包括iPhone SE第二代及更新版本。这意味着iPhone XS、iPhone XS Max和iPhone XR三款机型将无法升级至新系统,用户设备将�

  • 2025年数据建模工具推荐榜单:三款领先产品深度测评,破解源端数据治理难题

    文章介绍了三款2025年主流数据建模工具:Datablau DDM、ERwin Data Modeler和PowerDesigner。Datablau DDM是国产新一代数据建模工具,由原ERwin核心团队打造,深度融合数据治理理念,支持从源头进行数据治理,已广泛应用于金融、能源等行业。ERwin Data Modeler是行业标杆产品,提供全生命周期建模能力,支持传统数据库到大数据平台。PowerDesigner是企业级综合建模平台,支持数据建模、业务流程建模和应用架构设计,具有强大的集成与可追溯性。三款工具各具特色,分别从国产化、行业严谨性和企业架构整合等维度,为企业破解数据标准落地难题、实现高效数据治理提供有力支撑。