Archive

A collection of papers I've read and notes I've written. Use the search box to filter by title, authors, venue, tags, or summary.

3 / 3

DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference

2025-09

北大 / 清华 / DeepSeek 联合·arXiv 2025

面向 PD 分离架构下的 Agentic LLM 推理。论文指出在 Agent 场景下 KV-Cache 的 I/O 而非计算成为新瓶颈,而每个节点只配一个存储网卡(SNIC),且 Prefill 节点的 SNIC 被打满、Decode 节点的 SNIC 几乎闲置。DualPath 让 DE 的 SNIC 也参与读 KV-Cache,再通过计算网络(CNIC)传给 PE,配合 layerwise prefill、基于 InfiniBand Virtual Lane 的流量隔离以及动态调度,把可用存储带宽从 P×sB 拉到 (P+D)×sB。在线场景吞吐 2.25×,离线 1.87×,能扩到 1152 GPU。

KV CacheLLM ServingPD 分离存储带宽RDMA系统优化

Agent.xpu: Efficient Scheduling of Agentic LLM Workloads on Heterogeneous SoC

2025-06

Xinming Wei, Jiahao Zhang, Haoran Li 等(北京大学)·arXiv 2025

面向手机 / 笔电这类 SoC 设备上的 LLM Agent 推理。reactive 任务(用户主动发起,要求低延迟)和 proactive 任务(后台运行,要求高吞吐)必须共享同一块 SoC 上的 CPU / NPU / iGPU 三种计算单元。论文用 HEG + Stage Elasticity + 细粒度抢占 + 余量搭载这一整套机制,把操作系统级的进程调度思想搬到片上 LLM 推理:reactive 类比实时进程,proactive 类比后台进程,NPU 和 iGPU 类比两种特性不同的处理器核。

NPUAI AccelerationLLM ServingSoC调度系统优化

KVFlow: Efficient Prefix Caching for Accelerating LLM-Based Multi-Agent Workflows

2025-07

Zaifeng Pan, Ajjkumar Patel, Zhengding Hu 等·NeurIPS 2025

面向多智能体 workflow 的 KV cache 管理框架。作者指出,LRU 在 agentic 场景下会把「马上要被复用」的前缀缓存早早淘汰,于是提出用 Agent Step Graph 估计每个 agent 距离下一次激活还差几步,再据此做细粒度的节点级淘汰,并叠加 CPU→GPU 的全异步预取,最终在 SGLang hierarchical radix cache 上拿到 1.83×–2.19× 的端到端加速。

KV CacheLLM Serving多智能体系统优化调度