首页 > 传媒 > 关键词  > 开源技术最新资讯  > 正文

填补市场空白,Apache TsFile 如何重新定义时序数据管理

2024-03-21 11:25 · 稿源: 站长之家用户

刚刚过去的2023年,国产开源技术再次获得国际认可

2023年11月15日,经全球最 大的开源软件基金会 ASF 董事会投票决议,时序数据文件格式 TsFile 正式通过,直接晋升为 Apache Top-Level 项目(TLP),成为继时序数据库 Apache IoTDB 之后,Apache 时序数据领域第二个 Top-Level 项目。

TsFile 由时序数据库 Apache IoTDB 项目团队开发,是一种专门用于时序数据管理的文件格式,同时也是 IoTDB 的底层存储格式。

自项目成立以来,TsFile 社区发展迅速,在来自天谋科技、清华大学、华为、eBay、东方国信、用友等企业贡献者的共同努力下,于今年2月20日正式发布了1.0.0版本。据悉,Apache TsFile1.0.0版本支持多种数据类型、编码算法、压缩算法以及多种写入、查询模式。

TsFile1.0.0版本内容

事实上,TsFile 的意义,不仅仅在于其晋升为 Apache TLP 证明着国内开源项目的实力,更重要的是,TsFile 填补了时序数据领域的一项市场空白。

TsFile:为时序数据管理提供统一格式

时序数据即时间序列数据,是指带时间标签(按照时间的顺序变化,即时间序列化)的数据,其来源多元、数据量庞大,可广泛应用于物联网、智能制造、金融分析等领域。在数据驱动的当下,时序数据的重要性不言而喻。

尽管时序数据如此普遍且重要,但长期以来,时序数据的管理都缺乏标准化的文件格式。

当前企业会面临着多种时序数据的存储格式,如自定义格式的 CSV、自定义的二进制格式,或者使用 Parquet、ORC 等通用文件格式,这导致时序数据源的统一管理和汇聚十分复杂。

同时,通用文件格式没有针对时间、设备、测点等时序数据特有的数据概念,可能导致主键信息存储冗余,并缺乏时序数据场景常用索引,使得快速定位与查询数据性能受限。

这便是 TsFile 针对这一市场空白,希望实现的价值:为时序数据提供统一和标准化的格式。IoTDB 团队在构思 TsFile 结构时,便考虑了几个关键因素:

时序模型:专门为物联网设计的数据模型,每个时间序列与特定设备相关联,所有设备通过分层结构相互连接;

高压缩比:为时间序列量身定制的列式存储格式,将数据按设备进行组织,并保证每个序列的数据连续存储,最小化存储空间;

有效写入:数据可以按块写入,能够达到最 大吞吐;

有效访问:为时间、设备、物理量构建了相关索引结构,实现快速数据检索。

TsFile 的几大特性

下面具体了解一下 TsFile 的性能亮点。

相比其他文件格式,TsFile 通过自研实现了时序数据有效率管理、高灵活传输,并支持多类软件深度集成。其特性包括:

可独立使用:可以使用 SDK 直接读写 TsFile,使得一些轻量级的数据读写场景成为可能。

有效存储和压缩:TsFile 采用先进的压缩技术,可最 大限度地减少存储需求磁盘空间消耗并提高系统效率,从而减少磁盘空间消耗和优化数据管理。相比通用文件格式,压缩比可提升20% 以上。

灵活的元数据管理架构:与传统写入方式不同,TsFile 支持灵活的元数据管理,无需预定义元数据即可实现数据写入。这种适应性结合时序数据的动态特性,简化了数据写入和管理过程。结合列式数据写入模式,相比通用文件格式,写入吞吐可提升2-3倍。

高查询性能:通过设备、传感器和时间维度索引,TsFile 实现了基于特定时间范围的时序数据快速过滤和查询。相比通用文件格式,查询吞吐可提升2-10倍。

协同同步:TsFile 是时序数据库 IoTDB 的底层存储文件格式,可与 IoTDB 形成可插拔的存算分离架构。通过 TsFile,用户可对 IoTDB 中的数据进行便捷的加载与导出。同一个 TsFile 可以在嵌入式设备、边缘服务器和云节点中灵活部署和同步。

开放集成:TsFile 支持与 Spark、Flink 等大数据软件建立无缝生态集成,从而确保跨不同数据处理环境的兼容性和互操作性,实现时序数据跨生态深度分析。

TsFile 文件格式示意

基于时序数据特性的内核创新

在时序数据管理上,TsFile 之所以能实现上述这些功能,主要源于其在结构层面的多项创新。在此重点介绍 TsFile 采用的列式存储文件结构、编码和压缩技术。

1. 列式存储文件结构

下图为 Apache TsFile 的文件结构。

Page:一段连续的时序数据,存储的基本单元,按时间升序排序,时间戳和值各有单独的列进行存储。

Chunk:由同一序列的多个连续的 Page 组成,一个文件同一个序列可以存储多个 Chunk。

ChunkGroup:由一个设备的一至多个 Chunk 组成,多个 Chunk 可共享一列时间存储(多值模型)。

Index:TsFile 末尾的元数据文件包含序列内部时间维度的索引和序列间的索引信息。

TsFile 文件结构

由于每列数据的同质性,TsFile 可实现更好的压缩比;通过仅将必要的数据列加载到内存中,TsFile 可加快查询速度;通过将数据组织成可管理的单元进行处理和检索,TsFile 可提高可扩展性。

2. 编码和压缩技术

TsFile 通过采用二阶差分编码、游程编码(RLE)、位压缩和 Snappy 等先进的编码和压缩技术,优化时序数据的存储和访问,并支持对时间戳列和数据值列进行单独编码,以实现更好的数据处理效能。

其独特之处在于编码算法专为时序数据特性设计,聚焦在时间属性和数据之间的相关性。此外,TsFile 结合了频域编码,利用量化和位宽缩减来有效存储频域数据,在不会影响数据准确性的情况下节省空间占用。

TsFile、Parquet 和 ORC 三种文件格式的比较

基于对时序数据应用需求的深刻理解,TsFile 有助于实现时序数据高压缩比和实时访问速度,并为企业进一步构建有效、可扩展、灵活的数据分析平台提供底层文件技术支撑。

共创 Apache TsFile,共赢数据时代

通过上述介绍不难看出,基于时序数据特性,为时序数据管理量身定制的 TsFile 不仅在存储方面具有优势,也可提升时序数据的写入、查询、分析等多个核心环节的性能表现。这不仅可以帮助企业更好地控制部署成本,同时可以保障时序数据管理的灵活性与易用性。

从 IoTDB 的基础组件到独立项目的发展历程,也从侧面证明着 TsFile 的国产技术研发成果,正在国际上对时序数据管理产生着重要影响力。此前,国际软件领域媒体平台 The New Stack 专门采访介绍了 TsFile 项目。

数据时代,时序数据作为千行百业数字化转型的核心要素,优化其管理方式势在必行。

未来,围绕时序数据管理,TsFile 将进一步优化性能和多语言支持,集成更多的编码和压缩方法,并开发更多基于 TsFile 的时序数据可视化、解析和分析工具。

同时,随着晋升为 Apache TLP 项目,TsFile 希望与全球更多开发者合作,从底层文件技术角度,重新定义可靠、有效的时序数据管理方案,推动更多企业以时序数据价值为驱动,实现产能飞跃与业务创新。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 快手向量化引擎Auron 正式加入Apache孵化器

    快手开源的向量化引擎Auron(原Blaze项目)正式进入Apache孵化器,标志着项目发展的重要里程碑。Auron基于Rust开发,采用原生执行和向量化技术,相比Spark性能提升2倍以上,已在快手内部大规模应用并获多家企业采用。项目开源后社区活跃,未来将依托ASF开源治理模式,融入全球开源生态,获得更可持续的创新动能与影响力。

  • 潜行创新:以中国智造护航世运会 泳池清洁黑科技获国际认可

    成都世运会期间,本土科技企业潜行创新研发的泳池清洁机器人,在成都体育学院游泳馆和简阳东来印象体育中心两大场馆出色完成赛事保障任务。该机器人以“轻便易用、高效稳定、深度清洁”的特点赢得各国参赛团队赞誉,并获央视等中外权威媒体聚焦,成为“中国智造服务国际体育”的典型案例。其搭载智能算法,清洁效率较人工提升数倍,还具备4K高清检测、机械臂拾取等创新功能,为赛事安全保驾护航。目前产品已远销全球百余国家,覆盖五星酒店、家庭泳池等多元场景,“中国智造”标签获国际广泛认可。

  • 云原生API安全获认可,绿盟科技入选 Gartner®《Hype Cycle™ for APIs, 2025》

    近日,Gartner发布《Hype Cycle™ for APIs,2025》报告,绿盟科技凭借云原生API安全方案入选API威胁防护领域代表厂商。该方案针对云原生环境下的API全流量防护,适配容器化、微服务架构等特性,解决东西向流量防护难题,已在金融行业试点应用,帮助用户构建稳定可靠的云原生API安全防护体系,保障核心业务数据机密性、完整性与可用性。

  • 再获认可!腾讯云入选Gartner® API管理市场指南

    Gartner发布《中国API管理市场指南》,腾讯云API安全网关入选代表供应商。报告指出,随着企业数字化、云和物联网的广泛应用,API成为数字化体验的核心,但也面临安全与隐私风险。Gartner建议企业选择支持API设计、测试、版本控制的工具,并关注混合部署和云原生功能。腾讯云WAF-API提供零部署、资产自动发现、场景识别等六大能力,助力企业构建全生命周期API安全治理。

  • AI日报:苹果明年推出SiriAI搜索;OpenAI放开ChatGPT Projects功能;Kimi K2-0905 上线 Discord

    本文汇总了AI领域最新动态:苹果与谷歌合作,计划在Siri中引入Gemini AI技术;OpenAI向免费用户开放Projects功能,提升任务管理效率;谷歌推出免费Gemini CLI工具,集成GitHub提升开发效率;OpenAI估值飙升至5000亿美元,二级股票售出103亿美元;苹果自研AI搜索引擎“世界知识问答”计划2026年上线;月之暗面发布Kimi K2-0905模型,提升编程与创意写作能力;Raycast推出Cursor Agent插件优化代码编辑;谷歌发布nano banana官方Prompt模板,助力创意设计。

  • 从暑期档剧集TOP20,看腾讯视频的“大家底蕴”

    暑期档落幕,五味杂陈。如果以爆款指标来论,今年的暑期档剧集表现算不上优异,但市场确实又扫去了一些阴霾: 一方面,恰逢暑期档发布广电21条,切切实实提振了行业信心。另一方面,则是在暑期档内容里,我们看到了更多的“确定性”——这个词在今年的长剧市场频繁被提及,它被视为内容行业穿越周期、应对市场不确定性的关键,如今也是新政落地、长剧市场乘风的

  • AI日报:抖音打击AI技术滥用行为;OpenAI 收购开发数据分析平台 Statsig;ElevenLabs 音效模型更新

    抖音打击AI技术滥用行为,对违规商家和达人采取下架、清退等措施。ElevenLabs音效模型升级至版本2,支持长音频和无缝循环。OpenAI收购数据分析平台Statsig,增强产品迭代能力。亚马逊推出Lens Live AI功能,实时扫描购物。谷歌AI推出Stax工具,帮助开发者评估大语言模型。WordPress推出AI工具Telex简化网站构建。Liquid AI发布LFM2-VL模型,提升手机视觉语言处理。苹果开源FastVLM与MobileCLIP2模型,优化边缘设备AI应用。MetaGPT推出自动化测试工具RealDevWorld,精准率达92%。瑞士发布开源大模型Apertus,提供多语言处理能力。

  • 双节能领域唯一获国际认证!海尔壁挂炉增幅居行业TOP1

    随着国家“双碳”政策推进,壁挂炉行业结构明显变化,节能型冷凝产品逐渐占据主流。2025年上半年数据显示,行业整体销量下降3.6%,但冷凝产品逆势增长20.49%,海尔凭借双冷凝节能技术实现43.29%高增长,获“国际领先”认证。该技术将热效率提升至103%,并牵头制定超一级能效标准,同时通过零冷水精控、AI算法等解决用户舒适痛点,为行业向高效、舒适发展注入信心。

  • 中国品牌TOP1!海尔壁挂炉逆势增长43%

    2025年上半年中国壁挂炉行业整体销量下滑3.6%,市场趋冷。然而海尔壁挂炉逆势增长43.29%,凭借“双冷凝”节能科技获评“国际领先”技术,解决传统产品高能耗、水温不稳、预热时间长等痛点。其AI智能算法精准控温,配合水联网平台提供全流程解决方案,实现从产品制造到场景服务的跨越,为行业指明节能化、智能化、用户需求导向的发展方向。

  • 杭州的交通安全宣传,彻底Next Level了!

    8月29日,“文明出行 九号相伴”2025杭州市文明出行主题宣传暨全市巡演在武林广场启动。活动由政企协同打造,通过文艺演出、互动体验等形式,将安全文明出行理念深入民心。九号公司获颁“杭州文明交通公益支持单位”奖牌,展现企业社会责任。巡演覆盖杭州多个城区,以文艺赋能安全宣传,推动文明出行成为城市新风尚。

今日大家都在搜的词: