Archive

A collection of papers I've read and notes I've written. Use the search box to filter by title, authors, venue, tags, or summary.

3 / 3

DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference

2025-09

北大 / 清华 / DeepSeek 联合·arXiv 2025

面向 PD 分离架构下的 Agentic LLM 推理。论文指出在 Agent 场景下 KV-Cache 的 I/O 而非计算成为新瓶颈，而每个节点只配一个存储网卡（SNIC），且 Prefill 节点的 SNIC 被打满、Decode 节点的 SNIC 几乎闲置。DualPath 让 DE 的 SNIC 也参与读 KV-Cache，再通过计算网络（CNIC）传给 PE，配合 layerwise prefill、基于 InfiniBand Virtual Lane 的流量隔离以及动态调度，把可用存储带宽从 P×sB 拉到 (P+D)×sB。在线场景吞吐 2.25×，离线 1.87×，能扩到 1152 GPU。

KV CacheLLM ServingPD 分离存储带宽RDMA系统优化

Agent.xpu: Efficient Scheduling of Agentic LLM Workloads on Heterogeneous SoC

2025-06

Xinming Wei, Jiahao Zhang, Haoran Li 等（北京大学）·arXiv 2025

面向手机 / 笔电这类 SoC 设备上的 LLM Agent 推理。reactive 任务（用户主动发起，要求低延迟）和 proactive 任务（后台运行，要求高吞吐）必须共享同一块 SoC 上的 CPU / NPU / iGPU 三种计算单元。论文用 HEG + Stage Elasticity + 细粒度抢占 + 余量搭载这一整套机制，把操作系统级的进程调度思想搬到片上 LLM 推理：reactive 类比实时进程，proactive 类比后台进程，NPU 和 iGPU 类比两种特性不同的处理器核。

NPUAI AccelerationLLM ServingSoC调度系统优化

KVFlow: Efficient Prefix Caching for Accelerating LLM-Based Multi-Agent Workflows

2025-07

Zaifeng Pan, Ajjkumar Patel, Zhengding Hu 等·NeurIPS 2025

面向多智能体 workflow 的 KV cache 管理框架。作者指出，LRU 在 agentic 场景下会把「马上要被复用」的前缀缓存早早淘汰，于是提出用 Agent Step Graph 估计每个 agent 距离下一次激活还差几步，再据此做细粒度的节点级淘汰，并叠加 CPU→GPU 的全异步预取，最终在 SGLang hierarchical radix cache 上拿到 1.83×–2.19× 的端到端加速。

KV CacheLLM Serving多智能体系统优化调度