控制面复用 Linux VFS：目录树、权限、inode 生命周期全部由 Linux 管理，文件到 blob 的映射通过 xattr（user.zvfs.blob_id）持久化，无需额外的映射数据库。数据面走 SPDK：read/write 等数据路径绕过内核，经 IPC 送到 ZVFS daemon，再通过 SPDK Blobstore 直接访问 NVMe。

Application (PostgreSQL / RocksDB)
         │  POSIX API
         ▼
  LD_PRELOAD Hook Layer
         │  Unix Domain Socket
         ▼
     ZVFS Daemon
    ┌────┴────┐
    │         │
Metadata   IO Workers
 Thread    (SPDK pollers)
    │         │
    └────┬────┘
         ▼
   SPDK Blobstore
         │
       NVMe SSD

SPDK 需要使用轮询模式，最好能独占CPU core，且metadata最好由同一个 spdk thread 管理，不适合嵌入任意应用进程。因此 daemon 统一持有所有 SPDK 资源，多个客户端进程共享同一个 daemon，通过 Unix Domain Socket 通信。

🧠 系统架构

架构设计关键点：

同步阻塞语义
零侵入接管应用 I/O
- 使用 LD_PRELOAD 拦截 POSIX API
- 不需要修改应用代码
控制面复用 Linux
- ZVFS 不重新实现目录树，而是复用 Linux VFS。目录 / 权限 / inode 生命周期由 Linux VFS 管理。
- 文件与 blob 的映射通过：xattr: user.zvfs.blob_id
SPDK 资源集中管理
- 文件内容存储在 SPDK Blobstore。直接访问 NVMe。
- SPDK 对 metadata 操作有 单线程要求，因此 daemon 设计为：
- metadata 操作：create / resize / delete
- data IO：read / write
POSIX 语义兼容
- 用户态文件系统需要正确模拟 Linux FD 语义：dup dup2 dup3 fork close_range
- 保证多个 fd 指向同一文件句柄时语义一致。

📦 构建

git clone ...
git submodule update --init --recursive

cd spdk
./scripts/pkgdep.sh
./configure --with-shared
make -j

cd ..
make -j

▶️ 运行

启动 daemon：

./src/daemon/zvfs_daemon

运行测试：

LD_PRELOAD=./src/libzvfs.so ./tests/bin/hook_api_test

🔬 已实现功能

打开/关闭/删除

open open64 openat openat64 fopen fopen64 
creat creat64 
fclose close close_range 
dup dup2 dup3 fork
unlink unlinkat remove rename renameat

读写层

read pread pread64 readv preadv preadv64 preadv2 
write pwrite pwrite64 writev pwritev pwritev64 pwritev2 
fread_unlocked fread fscanf

偏移/空间管理层

lseek lseek64 
truncate truncate64 ftruncate ftruncate64 fallocate posix_fallocate

元数据层

stat stat64 fstat fstat64 lstat lstat64 fstatat fstatat64 statx

同步/控制层

fsync fdatasync sync_file_range
fcntl fcntl64 ioctl

🚀 性能

测试环境：VMware 虚拟机 + 模拟 NVMe，单线程阻塞 I/O。

注：VMware 模拟 NVMe 无法体现 SPDK 轮询模式对中断驱动 I/O 的延迟优势，以下数据用于评估 hook 层与 IPC 的额外开销，不代表真实硬件上的性能对比。

顺序写吞吐

Block Size	spdk_nvme_perf	ZVFS
4K	100 MiB/s	94 MiB/s
128K	1843 MiB/s	1662 MiB/s

ZVFS 达到 SPDK 原生性能约 90%。

fio 随机写（16K，psync）

	kernel (psync)	ZVFS
IOPS	1855	1353
吞吐	28.0 MiB/s	21.2 MiB/s
avg clat	492 µs	692 µs
sys%	28.6%	8.4%

当前 ZVFS 在该单线程 psync 随机写场景下达到 kernel psync 的约 73% IOPS。daemon 内部 SPDK + reply_q 已收敛到较稳定范围，剩余主要开销集中在 client -> daemon 请求进入阶段。

WRITE 请求端到端延迟分解（单位 µs）

基于 12 条 WRITE trace 样本统计，下面按调用栈层级展开平均耗时。由于四舍五入，父子项相加会有 ±1 µs 误差。

total 748
├─ c2s 317
│  ├─ send 39
│  └─ server_rx_wait 278
├─ server 336
│  ├─ rx_dispatch 12
│  ├─ dispatch_spdk 25
│  ├─ spdk 194
│  └─ reply_q 103
│     ├─ spdk_post 11
│     └─ cq_wait 91
│        ├─ kick 13
│        ├─ wake_sched 65
│        └─ wake_to_tx 12
└─ s2c 95
   ├─ resp_wait 83
   └─ parse 12

当前 WRITE 的主要额外开销已经比较清晰：一是 c2s / server_rx_wait，二是 server 内部的 spdk 与 reply_q。在 reply_q 中，wake_sched 已明显大于 kick 和 wake_to_tx，说明回包路径的主要损耗不在 eventfd 写入本身，而在 reactor 被唤醒后的调度等待。

pgbench（PostgreSQL TPC-B，单客户端）

	kernel	ZVFS
TPS	39.1	38.2
avg latency	25.6 ms	26.6 ms

端到端数据库工作负载下，IPC 开销被稀释，ZVFS 与 kernel 路径性能基本持平（~4% 差距）。

⚠️ 当前局限

不支持 mmap
非对齐写存在 RMW 开销
IPC 请求大小存在上限：大 I/O 需在 hook 层分片；改用共享内存 scatter-gather 可消除此限制。

future work

支持 mmap：可通过 /dev/shm + userfaultfd 方向探索。
缓解非对齐写开销、!O_DIRECT语义：实现类似 pagecache 的bufferpool
修改IPC方式：使用更快的 Shared Memory
减少通信、拷贝开销：将 I/O 操作迁移至 Application 进程。MetaData操作保留在 Daemon 中。

🧩 遇到的一些问题

SPDK metadata 线程模型

SPDK Blobstore metadata 回调必须在初始化线程执行，需要严格区分：

metadata thread -io thread

否则会导致 callback 无法返回。resize barrier 卡死

spdk_for_each_channel() 在 resize / delete 中会触发 barrier，

如果某些线程未 poll 会导致系统卡死。

解决方式：

保证所有 IO thread 持续 poll thread 退出时释放 io_channel

PostgreSQL tablespace hook 失效

PostgreSQL tablespace 通过 symbolic link 访问路径： pg_tblspc/xxx

简单字符串前缀匹配 /zvfs 会漏判。

解决：realpath() 后再判断路径

write 延迟显著高于预期

这次 fio 延迟排查里，最初 WRITE 延迟明显高于预期。沿端到端路径加轻量打点后发现问题并不在 SPDK 本体，而是同时叠加了无条件 RMW、VM 中 poller 调度抖动、线程未绑核，以及后期 trace 暴露出来的 reactor 唤醒后核心切换抖动。对应处理是：整块对齐写跳过 read phase、将 reactor/md/io 线程固定到指定 CPU，并把 io 线程数和绑核目标收敛到配置项中。修复后 dispatch_spdk 从毫秒级降到几十微秒，WRITE 平均延迟也回落到约 700 µs，但剩余尾延迟仍主要表现为请求进入与回包阶段的调度等待。

README.md Unescape Escape

ZVFS

设计思路