Lec3 数据库存储：文件与页面

存储层次

堆文件

堆文件是一个无序的页面集合，元组以随机顺序存储。

需要额外的元数据来跟踪文件的位置和空闲空间的可用性。

页面布局

页面头部

每个页面包含关于页面内容的元数据头部。

页面大小；校验和；DBMS版本；事务可见性；压缩/编码元数据；模式信息；数据摘要/草图

方法：

方法 #1：元组导向存储
方法 #2：日志结构存储
方法 #3：索引组织存储

元组导向存储

最常见的布局方案称为插槽页面。

记录ID

DBMS为每个逻辑元组分配一个唯一的记录标识符，表示其在数据库中的物理位置。

→ 示例：文件ID，页面ID，插槽#

元组布局

元组本质上是一个字节序列，前面带有一个包含其元数据的头部。

元组头部

每个元组前面都有一个包含其元数据的头部。

→ 可见性信息（并发控制）

→ NULL值的位图。

我们不需要存储关于模式的元数据。

元组数据

属性通常按照创建表时指定的顺序存储。然而，以不同的方式布局可能更高效。

Lec4 缓冲池内存管理

本讲将解决DBMS如何管理其内存以及如何在磁盘之间来回移动数据。

磁盘导向DBMS模型

现代DBMS是磁盘导向的：磁盘是真相的来源，而内存用于性能优化。

数据移动受两个维度的控制：

空间控制：页面在磁盘上的放置位置，旨在保持频繁共同访问的页面物理上接近。
时间控制：页面何时被引入内存，以及何时修改的页面被写回磁盘。

缓冲池是实现时间控制的核心机制。

缓冲池元数据

为了管理缓存页面，DBMS在内存中维护元数据：

页面表

映射 page_id → frame_id
通常实现为哈希表
由锁保护以确保线程安全
不持久化到磁盘

每页元数据

每个缓存页面跟踪：

脏标志：页面是否已被修改
固定（引用）计数：活跃用户的数量；固定页面不能被驱逐
访问历史：由替换策略使用

锁与锁存器

缓冲池使用锁存器，而不是锁。

锁保护逻辑数据库内容，并在事务持续期间持有
锁存器保护内部DBMS数据结构，并短暂持有

锁存器不需要回滚支持，更接近于互斥锁。

页面目录与页面表

这两个结构常常被混淆：

页面目录：将页面映射到磁盘位置，持久化到磁盘
页面表：将页面映射到内存帧，仅存在于内存中

目录在重启后支持恢复；页面表则不支持。

缓冲替换策略

当缓冲池满时，必须加载新页面，DBMS必须驱逐现有页面。替换策略旨在平衡正确性、准确性和低开销。

LRU与时钟

驱逐最近最少访问的页面
时钟使用引用位近似LRU

两者都容易受到顺序洪水的影响，即大规模扫描驱逐即将被重用的有用页面。

LRU-K

LRU-K考虑第K次最近访问，而不仅仅是最后一次。

访问次数少于K的页面被视为低价值
有助于区分一次性扫描和真正热门的页面
需要更多元数据和更高的实现复杂性

ARC

自适应替换缓存动态平衡新近性和频率。

为最近和频繁的页面维护单独的列表
使用幽灵列表从最近的驱逐中学习
根据工作负载自动调整行为

ARC更复杂，但对混合工作负载适应良好。

Lec5 日志结构存储

传统的页面导向存储假设数据可以就地覆盖。然而，这一假设在现代存储系统中失效，因为随机写入成本高昂或根本不支持。

日志结构存储采取不同的方法：DBMS将所有更改记录为日志记录，而不是修改页面内的元组。

日志记录与内存更新

对元组的每次修改都表示为日志记录：

PUT(key, value) 插入或更新一个元组
DELETE(key) 将元组标记为已删除

DBMS不会立即将这些记录写入磁盘。相反，更新首先应用于一个称为MemTable的内存数据结构。

MemTable保持键的排序，并始终反映数据库的最新状态。

将MemTable刷新到磁盘

当MemTable变满时，DBMS将其内容刷新到磁盘作为排序字符串表（SSTable）。

SSTable的关键属性：

作为新文件存储在磁盘上
包含按键排序的记录（低→高）
一旦写入即不可变

这个刷新后的SSTable被放入级别0。

在此阶段，可能存在多个SSTable，按最新到最旧排序，并且它们的键范围可能重叠。

多级组织

随着生成更多SSTable，DBMS将它们组织成多个级别：

级别0
- 直接从内存刷新到的SSTable
- 键范围可能重叠
- 按创建时间排序（最新→最旧）
较低级别（级别1，级别2，…）
- SSTable具有不重叠的键范围
- 数据逐渐变得更旧且更紧凑

这种层次结构允许DBMS在顶部快速吸收写入，同时在后台逐渐组织数据。

读取数据（GET）

为了处理GET(key)请求，DBMS搜索键的最新版本：

MemTable
- 首先检查，因为它包含最新的更新
SummaryTable
- 存储元数据，例如：
  - 每个SSTable的最小/最大键
  - 每个级别的键过滤器
- 用于消除无法包含该键的SSTable
磁盘级别
- 从最新到最旧的SSTable搜索级别0
- 使用键范围约束搜索较低级别