首页 > 业界 > 关键词  > 数据库最新资讯  > 正文

研究人员为古老的线性探测哈希表注入了数据存储的新活力

2021-11-19 16:59 · 稿源: cnbeta

麻省理工学院(MIT)计算机科学与人工智能实验室(CSAIL)的一项新研究,为我们指引了可提升计算机数据存储和检索效率的新方向。包括该校博士生 William Kuszmaul 在内的三位研究人员指出,新发现与所谓的“线性探测哈希表”有关。据悉,1954 年问世的该方法,也是当今可用的最古老、简洁、快速的数据结构之一。

数据结构提供了在计算机中组织和存储数据的方法,哈希表就是最常用的方法之一。以线性探测哈希表(linear-probing hash tables)为例,其特点是能够将信息存储于一个线性数组中。

William Kuszmaul 指出,假设某个数据库需要存储上万人的社保号码,我们需要依次得知社保号码(x),然后计算 x 的哈希函数 h(x),其提供了 1~10000 之间的随机数。

下一步,系统需要将随机数 h(x)移到数组中的相应位置,然后将社保号码(x)存入于此。

但若已经有东西占据了该位置,软件只需腾挪到下一个空闲位置,这也是‘线性探测’一词的由来。

后续需要检索该社保号码(x)的话,你只需前往指定的 h(x)位置。

若不存在,那就继续前进到下一个位置 —— 直到找到(x)、或到达了一个空闲位置,并最终得出(x)并不存在于数据库中的结论。

不过在删除特定条目的时候,通常会运用一些不同的协议。如果你在删除信息后,仅于哈希表中留下一个空位。那当稍后尝试查找其它内容时,可能会造成混淆。

为避免产生“数据库中不存在你正在寻找的条目”的混淆,数据库可以在那里做个“墓碑”(tombstone)小标记,以表明“这里曾经存在过一个元素,但现在已消失”。

这套理论已经延续了半个多月世纪,但此前几乎每个使用线性探测哈希表的人都认为 —— 如果你将哈希表填得太满,那长长的被占据的位置就会聚成一个‘集群’(clusters)。

结果就是想要找到一个空闲位置所花费的时间呈指数级(二次方)增长,直到完全脱离了实用的范畴。基于此,人们接受了以低容量来操作哈希表的培训。

长期以来,这个原则一直不利于高负载率。另一方面,它也让企业陷入了必须耗费重金来购买和维护硬件的尴尬。

好消息是,William Kuszmaul 刚刚和另外几位同事 —— 包括来自石溪大学的 Michael Bender、以及来自 Google 的 Brad Kuszmaul —— 彻底颠覆了既有的认知。

他们发现,对于插入和删除数量保持不变的应用程序(添加的数据量大致等于删除的数据量),线性探测哈希表可以在不牺牲速度的情况下、以高存储容量运行。

此外该团队设计了一种被称作‘墓地哈希’的新策略,涉及人为地增加放置在阵列中的‘墓碑’数量,直到它们占据大约一半的空闲位置。

作为保留空间,这些‘墓碑’可用于将来的数据插入。

William Kuszmaul 表示,这种方法与大家通常接受的“在线性哈希表中实现最佳性能”的相关指导背道而驰。

但正如他们在合著论文中所提到的那样,通过使用精心设计的“墓碑”,我们可以彻底改变线性探测的行为方式。

MIT News 指出,三人在今年早些时候发表的一篇论文中介绍了他们的最新发现。

此外在明年 2 月份于科罗拉多州博尔德举办的计算机科学基础(FOCS)研讨会上,他们还会作进一步的发表。

举报

  • 相关推荐
  • “鲁A的哥”载客打表到拉萨:乘客是研究生 打表价1万多元

    近日,一辆鲁A籍出租车现身四川甘孜藏族自治州康定市,引发网友好奇。原来,这辆新能源混动出租车是载着两名山东师范大学的研究生,从山东济南出发,历经7天、跨越3900多公里,一路驶向雪域高原拉萨。

  • 研究生济南打车去拉萨 打表价1万多 比自己开车玩惬意

    ​近日,济南一名出租车司机曹师傅驾驶新能源混动出租车,搭载两名均为研究生的乘客,开启了一场跨越3900公里的非凡旅程——从泉城济南出发,沿318川藏线一路奔赴雪域高原拉萨。这一独特出行方式迅速在网络上引发广泛关注与热议。 曹师傅向记者透露,此次进藏全程打表计费,目前计价器显示费用已超万元,而这仅是基础车费。剩余的油费、过路费需由两名乘客另行�

  • 微云全息引领区块链技术革新:双重安全哈希算法(DSHA)破局高能耗问题

    微全息公司(HOLO)针对区块链高能耗问题,创新推出双重安全哈希算法(DSHA)。该算法通过优化ASIC芯片设计,在保持网络安全性和效率的同时,显著降低能耗。DSHA采用双重验证机制,需同时满足两个哈希函数条件,大幅提升防篡改能力。公司还利用EDA工具优化ASIC硬件架构,改进寄存器、数据通路等设计,使哈希计算时耗电更少。这一技术突破不仅解决了PoW机制能耗痛点,更为区块链在金融、供应链等领域的广泛应用提供了可持续的技术支撑。

  • 润致・缇透:哪些人该给肌肤注入“光能”?

    文章介绍了一款名为"润致·纤透"的国产III类械字号肌肤改善产品。该产品针对三类肌肤问题人群:沙漠肌、暗沉肌和初老肌,提供定制化解决方案。其核心技术采用非交联透明质酸能渗透至真皮层,在肌底搭建储水网络,配合多重氨基酸形成锁水膜,临床数据显示能提升9%水润度和15%光泽度。产品还含有氨基酸成分,能促进胶原纤维新生,改善肌肤粗糙问题。作为国内首个获得肌肤改善适应症的III类械字号动能素,该产品经过严格审批,能有效解决干燥、暗沉、初老等肌肤问题,帮助肌肤焕发新生。

  • 微信朋友圈评论区能发表情包和图片:缓存可清理 不会太占用存储空间

    上个月,微信开始灰度测试朋友圈评论区带图功能,支持用户用表情包和图片进行评论。 有网友表示,微信现在评论可以带图了,我想知道评论区的图片会不会缓存下来占用我的手机空间。 对此,微信员工客村小蒋表示,在讨论微信占空间时,有两种需要区分的数据:可再生数据和非可再生数据。

  • AI驱动全域进化,金仓数据库以“融合”重构数据基座

    7月15日,电科金仓在京举办"融合进化+智领未来"主题产品发布会,推出多款AI时代数据库产品:KES V92025融合数据库具备多语法体系兼容、多集群架构等特性,性能提升30%;KEMCC统一管控平台实现跨云环境数据库管理;云数据库AI版集成高性能硬件与AI大模型;KFS Ultra智能数据集成平台支持百种数据源。中国人民大学教授王珊指出,数据库与AI深度结合已成释放数据价值关�

  • 微云全息(NASDAQ: HOLO)引领车联网数据安全新纪元:创新分片技术重塑区块链存储与计算

    随着车联网(IoV)技术发展,数据安全问题日益凸显。区块链技术凭借去中心化、不可篡改特性,在解决车联网数据安全需求方面展现出巨大潜力。微云全息(NASDAQ: HOLO)针对区块链存储压力大和跨分片通信效率低两大挑战,创新性地提出内容分片和节点分片两种解决方案。内容分片通过智能合约将数据分类存储在不同节点,降低单节点存储压力;节点分片则将网络节点分组协作,减少跨分片通信次数。这两种方法有效提升了系统性能和可扩展性,为车联网数据安全提供了新思路。

  • 在质疑声中前行:谢海玉用数据回应所有偏见

    谢海玉在科研困境中坚持探索的故事。他连续37天熬夜实验却数据不理想,向海外学者求助只得到过时数据。面对质疑和团队危机,他通过上万组数据验证猜想,最终将冷门领域变成显学。2019年实验平台突发故障时,他独自排查三天找到问题,带领团队通宵补救并发现新方法。如今他仍保持泡实验室的习惯,常对学生说科研就像在黑暗中挖隧道,每挖一厘米就更接近光明。

  • 硬盘丢失了数据怎么恢复?硬盘数据恢复的6种方法

    文章分析了硬盘数据丢失的常见原因及恢复方法。数据丢失主要源于人为误操作、硬件故障、软件系统问题和环境因素四类。针对不同情况,介绍了6种恢复方法:回收站还原、系统版本回退、备份还原、Mac系统的TimeMachine、命令行操作以及专业数据恢复软件。其中专业软件如转转大师能深度扫描硬盘,支持多种文件格式恢复,操作简便且成功率高。文章强调数据丢失后应避免写入操作,根据实际情况选择合适恢复方式,并建议做好日常备份预防数据丢失。

  • 为AI发展注入中国力量,云天励飞等中国企业亮相2025联合国“AI向善”峰会

    2025年7月8-11日,国际电信联盟等联合国机构将在日内瓦举办"2025全球人工智能向善大会"。作为全球规模最大的AI盛会,本届峰会汇聚300余家科技企业和国际AI专家,中国移动、阿里达摩院等中国企业亮相。会议聚焦AI伦理、可持续发展等议题,Meta首席科学家杨立昆等专家探讨AI未来发展。云天励飞董事长陈宁博士提出打造高效AI芯片平台等三点倡议。中国企业在AI普惠应用方面的创新成果获得国际关注,展现了中国在AI领域的硬核创新实力。