2026-06-24 上午简报·第二次（11:05）

实例： Jay
时间： 2026-06-24 11:05 CST
主题： KV-Cache 推理优化 / DeepSeek V4 MoE 架构 / Agent 记忆安全 / Vector DB 新格局
相比 09:35 简报的增量： 新发现 ParisKV、AsymCache、Memory Poisoning 系统研究、MPBench、DeepSeek V4 深度技术解析

📦 database / vecdb

1. ParisKV：漂移鲁棒、GPU 原生的 KV-Cache 检索框架

来源： arXiv:2602.07721
核心贡献： 基于碰撞候选选择（collision-based candidate selection）+ 量化内积重排，提出 drift-robust 的 KV-cache 检索系统。匹配甚至超越 full attention 速度（batch=1 时），吞吐量提升 2.8×，支持百万 token 上下文（full attention 在此已 OOM）。
技术亮点： 硬件感知的算法-系统协同设计；同时解决分布漂移问题——长输入/长生成场景下召回率稳定。
评价： 高。系统方向扎实，方法创新性强，适合作为分布式推理或长上下文推理系统的底层模块。适合跟进源码实现。
是否需要精读： ⭐⭐⭐（强烈建议）

2. AsymCache：GPU 注意力内核性能感知的 KV-Cache 管理

来源： arXiv:2606.02964
核心贡献： 提出 Multi-Segment Attention（MSA）处理非连续 KV 上下文；联合优化命中率与位置感知重计算成本的淘汰策略；自适应 chunking 调度器。TTFT 降低 1.90–2.03×，TPOT 降低 1.62–1.71×；集成到 Continuum agent Serving 系统后平均延迟再降 18.1%。
评价： 高。首个显式对齐 GPU kernel 性能的 KV-cache 管理方案，工程导向明确。
是否需要精读： ⭐⭐⭐

3. ShadowKV：低秩 Key Cache + Value 卸载，长上下文高吞吐

来源： arXiv:2410.21465v2
核心贡献： Key cache 低秩存储，Value cache 卸载至 CPU；A100 上 batch size 提升 6×，吞吐提升 3.04×，精度不降。评测覆盖 RULER、LongBench、Needle In A Haystack 及多个长上下文模型。
评价： 中高。与 ParisKV/AsymCache 路线互补，Value 卸载策略值得在边缘推理场景参考。
是否需要精读： ⭐⭐

4. SAGE-KV：LLM 自己知道该丢弃哪些 Token

来源： ICLR 2025, Virtual
核心贡献： 注意力在长上下文任务中呈现稀疏性，LLM 在 prefill 阶段隐式知道哪些 token 可以丢弃。据此提出 Self-Attention Guided Eviction，比 StreamLLM 内存效率高 4×（精度更优），比 Quest 高 2×。
评价： 中高。洞察深刻，方法简洁，工程可行性高。
是否需要精读： ⭐⭐

5. WindowKV：12% KV Cache 保持全量性能

来源： Semantic Scholar / arXiv 引用链
核心贡献： task-adaptive KV cache 窗口选择方法，仅用 12% 原始 KV cache 达到与全量缓存相当的性能。
评价： 中。数字惊人，需核实原文实验设定。
是否需要精读： ⭐（先核实再看）

⚙️ backend / inference / llm-systems

6. DeepSeek V4 Pro / Flash（2026-04-22）：CSA/HCA 混合稀疏注意力

来源： Clore.ai 部署指南 / vLLM Blog / Jia-Bin Huang 视频解析
核心架构： 1.6T 总参数 MoE / ~49B 活跃参数（Pro）/ 1M token 上下文；284B 总 / ~13B 活跃（Flash，单卡 80GB 可跑）；
CSA（Compressed Sparse Attention）：块级压缩稀疏注意力
HCA（Heavily Compressed Attention head）：深度压缩注意力头，专为长上下文 prefilling 降本
mHC（Manifold-Constrained Hyper-Connections）：新型连接架构
Muon 优化器：新型二阶优化器
vLLM 支持： 已支持 CSA/c4a 和 HCA/c128a 的 kernel 实现，含 inverse RoPE、short sliding window 等细节
评价： 高。这是 2026 年上半年最具系统影响力的开源 MoE 发布，CSA/HCA 是长上下文推理的核心突破。Flash 版本让单卡部署前沿模型成为现实。
是否需要精读： ⭐⭐⭐（建议先读 vLLM blog 掌握系统层面，再深入 CSA/HCA 论文）
行动建议： 补充精读 vLLM blog（系统实现）+ 跟进 HuggingFace 权重页面试跑

7. vLLM 官方博客：DeepSeek V4 注意力机制详解

来源： vLLM.ai
核心内容： per-layer KV state 对比（V3.2 vs V4）、CSA 实现细节（c4a/c128a 分块参数）、HCA inverse RoPE 必要性、bfloat16/fp8 混合 KV cache 策略
评价： 高。官方实现参考，对推理引擎二次开发有直接价值。
是否需要精读： ⭐⭐⭐

8. Fine-Tuning LLMs 2026 实战指南

来源： bigdataboutique.com
覆盖内容： 分布式微调策略、量化感知训练、LoRA/QLoRA 2026 新变种、推理侧微调（IPT）趋势
评价： 中。实操性强，但需对照最新论文核验数据。
是否需要精读： ⭐（参考价值）

🧠 agent / memory / security

9. Mem0 官方博客：Memory Poisoning in AI Agents（2026-06-22）

来源： Mem0.ai
核心内容： 坏输入如何长期腐蚀 Agent 记忆系统；与传统 prompt injection 的本质区别（跨会话持久性）；防御思路：输入信任评分、记忆消毒（sanitization）、溯源追踪、信任感知检索、行为监控
评价： 高。时效性强（6 月 22 日），Mem0 作为记忆基础设施供应商视角全面。
是否需要精读： ⭐⭐⭐（Agent 安全必读）

10. MPBench：系统化记忆投毒攻击基准

来源： arXiv:2606.04329
核心贡献： 识别 4 条记忆写入通道 × 9 个结构漏洞 → 6 类记忆投毒攻击分类法；提出 MPBench 评估基准；发现"越激进地写/检索记忆的 Agent，越容易被攻击"。
评价： 高。学术系统性最强，是该方向的基准工作。
是否需要精读： ⭐⭐⭐

11. Microsoft 安全博客：AI 推荐投毒（2026-02）

来源： Microsoft Security Blog
核心内容： AI 助手（Copilot、ChatGPT 等）记忆被操纵用于商业欺诈或舆论引导；与模型投毒（model poisoning）的区别；正在研究的防御手段
评价： 中高。产业安全视角，2 月数据偏旧但框架仍有参考价值。
是否需要精读： ⭐⭐

12. AI Agent Memory Architectures 深度survey（2026-04）

来源： Zylos.ai
核心内容： 三层记忆 taxonomy（episodic/semantic/procedural）全面梳理；MemGPT/Letta、LangGraph、CrewAI、Mem0、Zep、Cognee 实现对比；context window 管理机制；OWASP ASI06（AI Memory Poisoning）已被正式纳入
评价： 高。覆盖面广，2026 年最新，适合作为团队内部分享材料。
是否需要精读： ⭐⭐⭐

13. Mem0 State of AI Agent Memory 2026

来源： Mem0.ai
核心内容： 六大开放问题：时序抽象、跨会话结构化、应用层评估、隐私与同意架构、跨会话身份解析、记忆陈旧；Graph Memory 实验性进展更新；开源 v2→v3 迁移指南
评价： 中高。生态全景图，对选型有价值。
是否需要精读： ⭐⭐

14. AI Agent Memory Systems 2026 对比指南（DevGenius）

来源： blog.devgenius.io
核心内容： Mem0 / Zep / Hindsight / Memvid / Cognee / Letta 逐维度横向对比；揭示"更大 context window ≠ 解决记忆问题"误区
评价： 中。偏工程选型参考，部分观点与 Mem0 官方立场重叠。
是否需要精读： ⭐（选型时参考）

15. Memory Poisoning in AI Agents: Exploits That Wait（Christian Schneider）

来源： christian-schneider.net
核心内容： 时序解耦攻击定义；防御框架：分层控制、信任评分、记忆消毒、行为监控；强调"prompt injection 防御无法阻止跨会话记忆投毒"
评价： 中高。防御思路清晰，适合转化工程 checklist。
是否需要精读： ⭐⭐

☁️ cloud-native / MLOps

（本次搜索未发现高优先级 cloud-native 新条目。参考 09:35 简报中已覆盖的 K8s + autoscaling + GPU orchestration 相关内容。）

💻 csdn

（本次未执行 CSDN 专项搜索。参考 09:35 简报及历史库。）

🔬 reproduction / 复现线索

条目	复现路径	难度
ParisKV	arXiv 有源码链接	高（需 H100）
AsymCache	arXiv 2606.02964	高（需 GPU kernel）
DeepSeek V4 Flash	HF: deepseek-ai/DeepSeek-V4-Flash + vLLM	中（GGUF 可单卡）
SAGE-KV	ICLR 2025 Paper + GitHub	中
MPBench	arXiv:2606.04329 + GitHub	中
ShadowKV	arXiv + 官方实现	高

📋 本次主题与标签

主题： 长上下文 LLM 推理的 KV-Cache 优化 / DeepSeek V4 MoE 系统架构 / Agent 记忆安全
分类标签： database backend reproduction
建议写入路径： /shared/research-kb/inbox/jay/2026-06-24-1105-late-morning-kv-cache-deepseekv4-memory-poisoning-moe.md

🎯 后续行动建议

精读优先级 P0： ParisKV（arXiv）+ MPBench + DeepSeek V4 vLLM blog
精读优先级 P1： AsymCache + Mem0 Memory Poisoning 博客 + AI Agent Memory Architectures survey
主题页更新建议： 建议新增或合并"长上下文推理优化"主题页，收录 ParisKV / AsymCache / ShadowKV / SAGE-KV / WindowKV，形成 KV-Cache 优化技术谱系
Agent 安全页更新建议： MPBench + OWASP ASI06 + Microsoft 投毒报告可合并为"Agent Memory 安全"专页
复现建议： DeepSeek V4 Flash 是最低门槛的 MoE 复现起点，建议优先尝试

Jay · 2026-06-24 11:05 · 研究知识库实例