zvfs/README.md

# ZVFS

> 透明用户态 POSIX 文件系统，基于 SPDK Blobstore。

ZVFS 是一个 **透明用户态文件系统原型**，通过 `LD_PRELOAD` 劫持 POSIX I/O，
将应用程序的文件数据路径从 Linux 内核 I/O 栈重定向到 **SPDK 用户态 NVMe 存储路径**。

目标是在 **零业务代码修改** 的情况下，为数据库与向量检索系统提供更低延迟的存储访问。

目前已在 **PostgreSQL + pgvector** 场景完成功能验证。

---

# 测试方案

```shell
git clone http://gitlab.0voice.com/lianyiheng/zvfs.git
cd zvfs
git submodule update --init --recursive

cd spdk
sudo ./scripts/pkgdep.sh
sudo ./configure --with-shared
sudo make -j
sudo ./scripts/setup.sh

cd ..
make && make test

su root

# 测试
mkdir -p /zvfs/zvfs_sys_fio
mkdir -p /tmp/zvfs_sys_fio

SPDK_JSON_CONFIG="$PWD/src/zvfsnvme.json" ./src/daemon/zvfs_daemon
ZVFS_LD_PRELOAD_VALUE="$PWD/src/libzvfs.so" ./scripts/run_fio_matrix.sh

# 结果：
results/fio/..../summary.md
```

# 设计思路

大多数用户态文件系统（如 FUSE）需要修改应用或挂载文件系统。用户态文件系统如果要通过VFS，需要多一到两次额外的用户态/内核态切换。ZVFS 的目标是对应用完全透明：应用按正常方式调用 POSIX API，底层存储路径被悄悄替换掉。
核心决策是控制面与数据面分离：

控制面复用 Linux VFS：目录树、权限、inode 生命周期全部由 Linux 管理，文件到 blob 的映射通过 xattr（user.zvfs.blob_id）持久化，无需额外的映射数据库。
数据面走 SPDK：read/write 等数据路径绕过内核，经 IPC 送到 ZVFS daemon，再通过 SPDK Blobstore 直接访问 NVMe。

```
Application (PostgreSQL / RocksDB)
         │  POSIX API
         ▼
  LD_PRELOAD Hook Layer
         │  Unix Domain Socket
         ▼
     ZVFS Daemon
    ┌────┴────┐
    │         │
Metadata   IO Workers
 Thread    (SPDK pollers)
    │         │
    └────┬────┘
         ▼
   SPDK Blobstore
         │
       NVMe SSD
```

SPDK 需要使用轮询模式，最好能独占CPU core，且metadata最好由同一个 spdk thread 管理，不适合嵌入任意应用进程。因此 daemon 统一持有所有 SPDK 资源，多个客户端进程共享同一个 daemon，通过 Unix Domain Socket 通信。

---

# 🧠 系统架构

![](zvfs架构图.excalidraw.svg)

架构设计关键点：

- **同步阻塞语义**
- **零侵入接管应用 I/O**
   - 使用 `LD_PRELOAD` 拦截 POSIX API
   - 不需要修改应用代码
- **控制面复用 Linux**
   - ZVFS 不重新实现目录树，而是复用 Linux VFS。目录 / 权限 / inode 生命周期由 Linux VFS 管理。
   - 文件与 blob 的映射通过：`xattr: user.zvfs.blob_id`
- **SPDK 资源集中管理**
   - 文件内容存储在 SPDK Blobstore。直接访问 NVMe。
   - SPDK 对 metadata 操作有 **单线程要求**，因此 daemon 设计为：
   - metadata 操作：create / resize / delete
   - data IO：read / write

- **POSIX 语义兼容**
   - 用户态文件系统需要正确模拟 Linux FD 语义：`dup dup2 dup3 fork close_range`
   - 保证多个 fd 指向同一文件句柄时语义一致。

---

# 📦 构建

```bash
git clone ...
git submodule update --init --recursive

cd spdk
./scripts/pkgdep.sh
./configure --with-shared
make -j

cd ..
make -j
```
---

# ▶️ 运行

启动 daemon：
```
./src/daemon/zvfs_daemon
```

运行测试：
```
LD_PRELOAD=./src/libzvfs.so ./tests/bin/hook_api_test
```
---

# 🔬 已实现功能
打开/关闭/删除
```
open open64 openat openat64 fopen fopen64
creat creat64
fclose close close_range
dup dup2 dup3 fork
unlink unlinkat remove rename renameat
```
读写层
```
read pread pread64 readv preadv preadv64 preadv2
write pwrite pwrite64 writev pwritev pwritev64 pwritev2
fread_unlocked fread fscanf
```
偏移/空间管理层
```
lseek lseek64
truncate truncate64 ftruncate ftruncate64 fallocate posix_fallocate
```
元数据层
```
stat stat64 fstat fstat64 lstat lstat64 fstatat fstatat64 statx
```
同步/控制层
```
fsync fdatasync sync_file_range
fcntl fcntl64 ioctl
```
---

# 🚀 性能

测试环境：VMware 虚拟机 + 模拟 NVMe，单线程阻塞 I/O。

> 注：VMware 模拟 NVMe 无法体现 SPDK 轮询模式对中断驱动 I/O 的延迟优势，
> 以下数据用于评估 hook 层与 IPC 的额外开销，不代表真实硬件上的性能对比。

### fio 4K（psync，30s）

测试口径：

- `ioengine=psync`
- `direct=1`
- `iodepth=1`
- `bs=4K`
- `time_based=1`
- `runtime=30`
- `size=512M`
- `sys`: 普通文件路径
- `zvfs`: `LD_PRELOAD=./src/libzvfs.so`

#### prepare_fill 顺序写带宽

| | sys | ZVFS |
|---|---:|---:|
| 带宽 | 10.92 MiB/s | 14.41 MiB/s |
| disk util | 99.68% | 5.49% |

#### randread_4k

| | sys | ZVFS |
|---|---:|---:|
| IOPS | 3118.31 | 3685.21 |
| 吞吐 | 12.18 MiB/s | 14.40 MiB/s |
| avg clat | 318.31 µs | 268.91 µs |
| disk util | 99.77% | 0.52% |

#### randwrite_4k

| | sys | ZVFS |
|---|---:|---:|
| IOPS | 2883.24 | 3816.78 |
| 吞吐 | 11.26 MiB/s | 14.91 MiB/s |
| avg clat | 344.20 µs | 259.53 µs |
| disk util | 99.80% | 3.97% |

#### randrw_4k（50/50）

| | sys | ZVFS |
|---|---:|---:|
| 读 IOPS | 1614.29 | 2652.07 |
| 写 IOPS | 1605.60 | 2637.78 |
| 读 avg clat | 306.56 µs | 184.11 µs |
| 写 avg clat | 309.72 µs | 189.44 µs |
| disk util | 99.87% | 2.98% |

---

### WRITE 请求端到端延迟分解（单位 µs）
```bash
sudo env \
  ZVFS_TRACE_LATENCY=1 \
  LD_PRELOAD="$PWD/src/libzvfs.so" \
  fio ./zvfs_fio_test/zvfs/randwrite_4k.fio 2> /tmp/zvfs.write.trace.log
```
基于 `/tmp/zvfs.write.trace.log` 中 `107946` 条 `WRITE` trace 样本统计，下面按调用栈层级展开平均耗时。由于四舍五入，父子项相加会有 `±1 µs` 误差。

```text
total 256
├─ c2s 41
│  ├─ send 7
│  └─ server_rx_wait 34
├─ server 154
│  ├─ rx_dispatch 0
│  ├─ dispatch_spdk 5
│  ├─ spdk 138
│  │  ├─ phase1 0
│  │  └─ phase2 138
│  └─ reply_q 10
│     ├─ spdk_post 0
│     └─ cq_wait 10
│        ├─ kick 1
│        ├─ wake_sched 8
│        └─ wake_to_tx 0
└─ s2c 60
   ├─ resp_wait 60
   └─ parse 0
```

现在一次 `WRITE` 平均大约 `256 µs`。其中最耗时的是实际存储写入（`spdk`，约 `138 µs`），其次是请求发给 daemon 和结果返回应用这两段通信等待（`c2s` + `s2c`，约 `101 µs`）。回包队列相关开销（`reply_q`）已经压到约 `10 µs`，不再是主要瓶颈。

---

### pgbench（PostgreSQL TPC-B，单客户端）

| | kernel | ZVFS |
|---|---|---|
| TPS | 39.1 | 38.2 |
| avg latency | 25.6 ms | 26.6 ms |

端到端数据库工作负载下，IPC 开销被稀释，ZVFS 与 kernel 路径性能基本持平（~4% 差距）。

---

# ⚠️ 当前局限
- 不支持 mmap
- 非对齐写存在 RMW 开销
- IPC 请求大小存在上限：大 I/O 需在 hook 层分片；改用共享内存 scatter-gather 可消除此限制。
---

## future work
- 支持 mmap：可通过 /dev/shm + userfaultfd 方向探索。
- 缓解非对齐写开销、`!O_DIRECT`语义：实现 类似 pagecache 的bufferpool
- 修改IPC方式：使用更快的 Shared Memory
- 减少通信、拷贝开销：将 I/O 操作迁移至 Application 进程。MetaData操作保留在 Daemon 中。

---

# 🧩 遇到的一些问题

## SPDK metadata 线程模型

SPDK Blobstore metadata 回调必须在初始化线程执行，
需要严格区分：
- metadata thread
-io thread

否则会导致 callback 无法返回。resize barrier 卡死

## spdk_for_each_channel() 在 resize / delete 中会触发 barrier，
如果某些线程未 poll 会导致系统卡死。

解决方式：

保证所有 IO thread 持续 poll
thread 退出时释放 io_channel


## PostgreSQL tablespace hook 失效

PostgreSQL tablespace 通过 symbolic link 访问路径： pg_tblspc/xxx

简单字符串前缀匹配 /zvfs 会漏判。

解决：realpath() 后再判断路径


## write 延迟显著高于预期

这次 fio 延迟排查里，最初 `WRITE` 延迟明显高于预期。沿端到端路径加轻量打点后发现问题并不在 SPDK 本体，而是同时叠加了无条件 RMW、VM 中 poller 调度抖动、线程未绑核，以及后期 trace 暴露出来的 reactor 唤醒后核心切换抖动。对应处理是：整块对齐写跳过 read phase、将 reactor/md/io 线程固定到指定 CPU，并把 io 线程数和绑核目标收敛到配置项中。修复后 `dispatch_spdk` 从毫秒级降到几十微秒，`WRITE` 平均延迟也回落到约 700 µs，但剩余尾延迟仍主要表现为请求进入与回包阶段的调度等待。

---

# 脚本参数

以下脚本都支持通过环境变量 `ZVFS_LD_PRELOAD_VALUE` 指定加载的 so 库：

- `scripts/run_fio_matrix.sh`
- `scripts/run_pgbench_zvfs.sh`
- `scripts/run_db_bench_zvfs.sh`
- `scripts/run_test_hook_api.sh`

示例：

```bash
sudo env ZVFS_LD_PRELOAD_VALUE="$PWD/src/libzvfs.so" ./scripts/run_fio_matrix.sh
```

其他脚本同理：

```bash
sudo env ZVFS_LD_PRELOAD_VALUE="$PWD/src/libzvfs.so" ./scripts/run_pgbench_zvfs.sh
sudo env ZVFS_LD_PRELOAD_VALUE="$PWD/src/libzvfs.so" ./scripts/run_db_bench_zvfs.sh
env ZVFS_LD_PRELOAD_VALUE="$PWD/src/libzvfs.so" ./scripts/run_test_hook_api.sh
```

## 延迟 Trace

`WRITE` / `SYNC_MD` 的端到端阶段打印通过环境变量 `ZVFS_TRACE_LATENCY=1` 打开。
打印代码在客户端侧 [`src/spdk_engine/io_engine.c`](/home/lian/share/zvfs/src/spdk_engine/io_engine.c)，输出会写到执行 workload 的进程标准错误。

示例：

```bash
sudo env \
  ZVFS_TRACE_LATENCY=1 \
  LD_PRELOAD="$PWD/src/libzvfs.so" \
  fio ./zvfs_fio_test/zvfs/randwrite_4k.fio 2> /tmp/zvfs.write.trace.log
```

筛出 `WRITE` trace：

```bash
grep '\[zvfs\]\[trace\]\[WRITE\]' /tmp/zvfs.write.trace.log
```

筛出 `SYNC_MD` trace：

```bash
grep '\[zvfs\]\[trace\]\[SYNC_MD\]' /tmp/zvfs.write.trace.log
```

单行输出字段包括：

- `total`
- `c2s`
- `send`
- `server_rx_wait`
- `rx_dispatch`
- `dispatch_spdk`
- `spdk`
- `phase1`
- `phase2`
- `spdk_post`
- `kick`
- `wake_sched`
- `wake_to_tx`
- `reply_q`
- `cq_wait`

更新 README 中的 `WRITE 请求端到端延迟分解` 时，可对多条 `[zvfs][trace][WRITE]` 日志按字段取平均后再汇总。