Lec7 哈希表

背景

数据库管理系统中的数据结构：内部元数据、核心数据存储、临时数据结构、表索引

设计决策：数据组织（我们如何在内存/页面中布局数据以及存储哪些信息以支持高效访问）和 并发性（使多个线程能够同时访问数据结构）

哈希表：无序关联数组，将键映射到值；空间复杂度为 O(n)，时间复杂度平均为 O(1)，最坏情况为 O(n)。

不切实际的假设：元素数量是事先已知且固定的；每个键是唯一的；完美的哈希函数保证没有冲突。

我们关心如何将一个大的键空间映射到一个较小的域，主要目标是速度与冲突率之间的权衡。

示例：CRC-64 (1975)、MurmurHash (2008)、Google CityHash (2011)、Facebook XXHash (2012，最先进)、Google FarmHash (2014)、RapidHash (2019)

单个固定长度槽的巨大表。

通过线性搜索表中下一个空槽来解决冲突。

表的负载因子决定何时变得过满并应进行调整大小。

负载因子 = 活跃键 / 槽数量；分配一个新表，大小是原来的两倍，并重新哈希条目。

键值条目：

删除策略：

非唯一键：

优化：

使用多个哈希函数在哈希表中查找多个位置以插入记录。

之前的哈希表要求DBMS知道它想要存储的元素数量。否则，如果需要增大/缩小大小，它必须重建表。

动态哈希表根据需要逐步调整大小。

为哈希表中的每个槽维护一个桶的链表。

通过将所有具有相同哈希键的元素放入同一个桶来解决冲突。

我们可以添加布隆过滤器来帮助过滤不存在的键。

链式哈希方法，逐步拆分桶，而不是让链表无限增长。

多个槽位置可以指向同一个桶链。

在拆分时重新排列桶条目，并增加要检查的位数。

线性哈希：维护一个顺序推进的拆分指针。当任何桶溢出时，在拆分指针处拆分桶（而不是溢出的那个），使用 hash2 = key % 2n 将其条目重新分配到旧桶和新桶之间。

查找规则：计算 hash1(key)。如果结果 < 拆分指针，则该桶已被拆分，因此使用 hash2(key)。如果结果 ≥ 拆分指针，则 hash1 是正确的。

轮次完成：当拆分指针到达末尾时，所有桶都已拆分。丢弃 hash1，将 hash2 提升为新的 hash1，创建 hash2 = key % 4n，将指针重置为 0。任何时候最多只有两个哈希函数共存。