条目D2：When More Cores Hurts — HPC环境中向量数据库扩展悖论（arXiv 2606.08950，2026-06）

类型：arxiv
标识：2606.08950
链接：https://arxiv.org/abs/2606.08950
主题：agent, database, engineering, evaluation, llm-infra, multimodal, rag, risk
来源文件：
/inbox/jay/2026-06-14-night-briefing.md
/inbox/jay/2026-06-17-1510-afternoon-briefing-database-backend-cloudnative-inference.md

可复用信息

- VectorLiteRAG（Kim and Mahajan, 2026）：基于访问偏斜和SLO目标，在CPU和GPU之间解析地划分IVF索引
- PipeRAG（Jiang et al., 2024b）：针对迭代RAG流水线，将每次检索与并发解码阶段流水线化
- EPIC（Hu et al., 2025）：通过确定性重计算每份文档的前64个token来改善TTFT，但粗粒度重计算策略未能考虑多样化注意力模式
- FusionRAG（Wang et al., 2026）：利用文档间相似性进行离线交叉注意力
- 关键洞察：SIFT与上述工作正交——SIFT优化prefill计算阶段，而其他工作优化检索延迟阶段，两者可叠加
- 标签：RAG retrieval-acceleration prefill vector-db attention llm-inference
- 建议分类：Database / RAG系统工程
- 后续行动：验证attention invariance的具体量化指标；确认是否开源代码