研究人员为古老的线性探测哈希表注入了数据存储的新活力

2021-11-19 16:59 · 稿源： cnbeta

麻省理工学院（MIT）计算机科学与人工智能实验室（CSAIL）的一项新研究，为我们指引了可提升计算机数据存储和检索效率的新方向。包括该校博士生 William Kuszmaul 在内的三位研究人员指出，新发现与所谓的“线性探测哈希表”有关。据悉，1954 年问世的该方法，也是当今可用的最古老、简洁、快速的数据结构之一。

数据结构提供了在计算机中组织和存储数据的方法，哈希表就是最常用的方法之一。以线性探测哈希表（linear-probing hash tables）为例，其特点是能够将信息存储于一个线性数组中。

William Kuszmaul 指出，假设某个数据库需要存储上万人的社保号码，我们需要依次得知社保号码（x），然后计算 x 的哈希函数 h（x），其提供了 1~10000 之间的随机数。

下一步，系统需要将随机数 h（x）移到数组中的相应位置，然后将社保号码（x）存入于此。

但若已经有东西占据了该位置，软件只需腾挪到下一个空闲位置，这也是‘线性探测’一词的由来。

后续需要检索该社保号码（x）的话，你只需前往指定的 h（x）位置。

若不存在，那就继续前进到下一个位置 —— 直到找到（x）、或到达了一个空闲位置，并最终得出（x）并不存在于数据库中的结论。

不过在删除特定条目的时候，通常会运用一些不同的协议。如果你在删除信息后，仅于哈希表中留下一个空位。那当稍后尝试查找其它内容时，可能会造成混淆。

为避免产生“数据库中不存在你正在寻找的条目”的混淆，数据库可以在那里做个“墓碑”（tombstone）小标记，以表明“这里曾经存在过一个元素，但现在已消失”。

这套理论已经延续了半个多月世纪，但此前几乎每个使用线性探测哈希表的人都认为 —— 如果你将哈希表填得太满，那长长的被占据的位置就会聚成一个‘集群’（clusters）。

结果就是想要找到一个空闲位置所花费的时间呈指数级（二次方）增长，直到完全脱离了实用的范畴。基于此，人们接受了以低容量来操作哈希表的培训。

长期以来，这个原则一直不利于高负载率。另一方面，它也让企业陷入了必须耗费重金来购买和维护硬件的尴尬。

好消息是，William Kuszmaul 刚刚和另外几位同事 —— 包括来自石溪大学的 Michael Bender、以及来自 Google 的 Brad Kuszmaul —— 彻底颠覆了既有的认知。

他们发现，对于插入和删除数量保持不变的应用程序（添加的数据量大致等于删除的数据量），线性探测哈希表可以在不牺牲速度的情况下、以高存储容量运行。

此外该团队设计了一种被称作‘墓地哈希’的新策略，涉及人为地增加放置在阵列中的‘墓碑’数量，直到它们占据大约一半的空闲位置。

作为保留空间，这些‘墓碑’可用于将来的数据插入。

William Kuszmaul 表示，这种方法与大家通常接受的“在线性哈希表中实现最佳性能”的相关指导背道而驰。

但正如他们在合著论文中所提到的那样，通过使用精心设计的“墓碑”，我们可以彻底改变线性探测的行为方式。

MIT News 指出，三人在今年早些时候发表的一篇论文中介绍了他们的最新发现。

此外在明年 2 月份于科罗拉多州博尔德举办的计算机科学基础（FOCS）研讨会上，他们还会作进一步的发表。

（举报）

相关推荐

关键词：

深入实施“人工智能+”，伊顿助力皓扬数据打造 AI 算力中心标杆

近日，备受瞩目的《关于深入实施“人工智能+”行动的意见》正式发布，提出六大行动覆盖科技、产业、全球合作等领域。到2030年，新一代智能终端、智能体等应用普及率超90%，为数字基础设施建设勾勒出了宏大版图。北京皓扬云数据科技有限公司（以下简称:皓扬数据）作为国内 AI 算力中心开拓先锋，以覆盖全国的超大规模交付能力服务于数百家头部企业。两位创始人已在�

人工智能数字基础设施 AI算力中心
政策引领人工智能教育全面启动，猿力科技人工智能通识课覆盖千校

国务院推动“人工智能+”行动，北京中小学新学期首次系统开设人工智能通识课程，每学年不少于8课时。猿力科技旗下飞象星球成为重要推动力量，其课程覆盖小学至初中全学段，包含10门课程、160节课，实践导向突出。该课程已服务北京298所学校、9.8万名学生，并推广至全国25个省市超1000所学校，覆盖15万学生，成为国内覆盖最广的人工智能通识课程之一。

人工智能教育中小学课程国务院政策
王忠林赴格创东智调研人工智能产业高质量发展情况

9月11日，湖北省领导王忠林一行调研格创东智人工智能产业发展。公司CEO何军汇报了自主研发的工业智能平台、能碳管理系统等应用成果。王忠林强调要深化人工智能在工业研发、生产等领域的应用，促进全要素智能联动，更好服务制造业向智能制造转型升级。

人工智能工业智能平台能碳管理系统
祝贺！诺云荣登“人工智能+”新质生产力领航企业百强！

2025年9月8日，国务院发布人工智能发展指导意见后，诺云凭借AI营销创新实践入选“人工智能+新质生产力百强榜单”，成为河南唯一入选企业。作为数字化营销技术服务商，诺云提供企业直播SaaS系统与私域运营工具，覆盖电商直播、企业培训等全场景需求。已服务超20万家企业，覆盖3亿用户，拓展至零售、教育等150多个行业，客户包括携程、华为等头部机构。诺云将持续深化AI技术应用，激发新质生产力潜能。

人工智能新质生产力 AI营销
普适性覆盖人工智能典型场景寒武纪产品技术优势凸显

中科寒武纪科技预计2025年全年实现营业收入50亿至70亿元。公司已全面掌握智能芯片及基础系统软件研发核心技术，截至2025年6月30日，累计获授权专利1599项。2025年上半年，公司实现营业收入28.81亿元，同比增长4347.82%，净利润扭亏为盈。寒武纪持续优化智能处理器微架构及指令集，新一代产品将提升编程灵活性、易用性、性能及能效。高盛维持对公司的积极看法，上调12个月目标价至2104元，并调高2030年预期EBITDA及企业价值倍数。

寒武纪智能芯片专利授权
三旺通信入选大湾区人工智能+重点企业榜单TOP50

8月27日，三旺通信在2025深圳国际通用人工智能大会上荣登“2025粤港澳大湾区人工智能+重点企业TOP50”榜单。该公司深耕工业互联领域二十余年，凭借在工业通信、边缘计算等领域的技术积累，积极布局AI应用，将人工智能能力融入智能制造、智慧交通等重点场景，推动产业实现更高效、更安全的数字化升级。未来，三旺通信将继续依托深圳及大湾区创新沃土，以开放姿态拥抱AI产业生态，携手产业链上下游共同推动人工智能与工业互联网的深度融合。

人工智能工业互联边缘计算
迎“人工智能+”政策东风！2025中国智能产业大会&吴文俊人工智能创新大会即将落地常州

在全球AI竞争加剧背景下，国务院印发《关于深入实施“人工智能+”行动的意见》，推动AI与经济社会深度融合。中国人工智能学会主办的“2025第十四届中国智能产业大会暨吴文俊人工智能创新大会”将于8月30-31日在常州举行，聚焦破解AI产业“卡脖子”难题。大会设置15场专题会议和3场特色活动，覆盖基础技术突破、核心应用落地、交叉学科融合等领域，为产学研各界搭建高

人工智能政策利好产业大会
天翼云TeleDB通过信通院“可信数据库”安全专项测试

中国信通院公布2025上半年“可信数据库”评估结果，天翼云TeleDB高可用关系型数据库通过安全专项测试，产品性能与安全能力达行业领先水平。TeleDB具备高性能、高可用、高可靠、高安全、易扩展、易管理等优势，已在政务、物联网、新能源、医疗等行业广泛应用，助力企业数字化转型。此次评测进一步验证了国产数据库的技术实力，推动我国数据库产业快速发展。

可信数据库天翼云 TeleDB
数据库行业红海角逐万里数据库2025半年度营收逆势翻倍

国产数据库市场近年竞争激烈，厂商数量锐减，但万里数据库逆势增长。其核心优势在于100%兼容MySQL，实现业务代码零改造，提供不停机迁移方案，并获金融等行业客户认可。同时，万里数据库参与行业标准制定，并拓展国际合作，展现出技术实力与差异化竞争力。市场虽卷，但具备硬核实力的企业仍能破局。

国产数据库市场分析财报数据
北电数智亮相世界人工智能大会，“四链融合”推动AI产业落地

2025世界人工智能大会“人工智能+”战略领军人才与创新发展论坛圆满落幕。论坛聚焦“人才领航智启未来”主题，汇聚中科院、社科院专家及中国联通、腾讯云等机构代表，围绕“人工智能+”行动分享经验，为AI高质量发展筑牢人才根基、激发创新动能。北电数智CMO杨震出席并发表演讲，分享AI行业落地实践，强调紧跟国家战略，推进产业、创新、人才、资本四链融合，打造面向不同场景的AI解决方案，全方位助力AI产业发展。

人工智能人才领军创新发展

今日大家都在搜的词：

热文

3 天
7天

研究人员为古老的线性探测哈希表注入了数据存储的新活力

深入实施“人工智能+”，伊顿助力皓扬数据打造 AI 算力中心标杆

政策引领人工智能教育全面启动，猿力科技人工智能通识课覆盖千校

王忠林赴格创东智调研人工智能产业高质量发展情况

祝贺！诺云荣登“人工智能+”新质生产力领航企业百强！

普适性覆盖人工智能典型场景寒武纪产品技术优势凸显

三旺通信入选大湾区人工智能+重点企业榜单TOP50

迎“人工智能+”政策东风！2025中国智能产业大会&吴文俊人工智能创新大会即将落地常州

天翼云TeleDB通过信通院“可信数据库”安全专项测试

数据库行业红海角逐万里数据库2025半年度营收逆势翻倍

北电数智亮相世界人工智能大会，“四链融合”推动AI产业落地

今日大家都在搜的词：

热文

华为MatePad mini今日首销：3299元起

罗永浩悬赏10万征集西贝预制菜线索还送iPhone17

华为Mate XTs三折叠今天首销：售价17999元起

AI日报：MiniMax Music 1.5上线；腾讯会议上线AI托管；蚂蚁外滩

全新问界M7累计小订已突破19万辆

苹果官网Apple Store开始维护！iPhone 17系列今晚开启预购

苹果iPhone Air在华发售延期上热搜：移动、电信、联通均已支持

苹果客服回应韩国官网取消捏合动画：发布动画前已经调研

苹果发布会前瞻：最大看点iPhone Air iPhone17或成国内首款无卡

为什么微信上那么多人住在安道尔上热搜：这些因素导致

iPhone 17系列今晚发布：苹果发布会新品揭晓

小米智能音箱多彩版发布：售价199元

库克称最爱橙色新iPhone：17 Pro是迄今最先进iPhone

华为MatePad mini今日首销：3299元起

苹果推出手机斜挎挂绳售价479元：10种配色可选

罗永浩悬赏10万征集西贝预制菜线索还送iPhone17

小米王腾因泄密被辞退曾单独签署保密协议

王腾否认被将入职魅族担任副总：系谣言

站长商机