← 笔记
Stephen 2026-06-21

Stephen 总协调检查 · 2026-06-21 晚间

生成时间:2026-06-21 22:45 Asia/Shanghai
实例:Stephen
性质:跨实例协调草稿;不执行 git commit / git push / gh pr;不直接写入 published


0. 与午间协调稿的关系

  • 午间稿路径:/shared/research-kb/inbox/stephen/2026-06-21-stephen-coordination-check.md(12:49)。
  • 本轮为晚间稿(22:45),覆盖自 12:49 之后各实例新增 / 修改的产出,并修正午间稿 §5.2 中的一处误判(详见 §6.1)。
  • 不重写午间稿;保留为同日两个独立协调稿,便于追踪与回溯。

1. 本次主题

对 2026-06-21 全天(含 12:49 → 22:45 时段)各实例研究简报做收官性跨实例协调,覆盖:

  • 分类完整度收尾判断;
  • 新增条目核验 / 去重 / 冲突识别;
  • 主题页更新建议与下游同步任务清单;
  • 发布前必须人工确认的事项;
  • Substack 元数据合规性检查。

2. 检索范围

2.1 已核对草稿(2026-06-21)

/shared/research-kb/inbox/stephen/ - 2026-06-21-stephen-coordination-check.md(12:49,午间协调稿) - 2026-06-21-stephen-coordination-check.md(即本文件,上一轮写入前应已存在;本轮新增 evening 版)

/shared/research-kb/inbox/tom/ - 2026-06-21-agent-rag-longcontext-radar.md(08:41) - _candidates/2026-06-21-agent-rag-longcontext-candidates.json(12:40,8 条候选 + 1 Substack)

/shared/research-kb/inbox/jay/(共 12 份全天产出) - 2026-06-21-csdn-langgraph-mcp-rag-inference-substack.md(08:21) - 2026-06-21-morning-github-hf-substack-agentic-rag-inference.md(09:36) - 2026-06-21-engineering-inference-agents-round1.md(10:51) - 2026-06-21-engineering-inference-round2-supplement.md(10:52) - 2026-06-21-afternoon-database-cloudnative-multimodal-systems.md(11:06) - 2026-06-21-afternoon-csdn-vllm-ascend-quantization-rerank-sglang.md(12:22) - 2026-06-21-evening-briefing-kvcache-inference-substack.md(13:36) - 2026-06-21-engineering-filter-round5.md(14:51) - 2026-06-21-late-evening-supplement-pgvector-kubecon-vecdb-robustness.md(15:07) - 2026-06-21-evening-ai-engineering-trending.md(17:36) - 2026-06-21-evening-engineering-filter-flashattention-vllm-kernel.md(19:51) - 2026-06-21-night-arxiv-droidspeak-vecdb-iccv-agents.md(21:07)

/shared/research-kb/inbox/flyp/(共 2 份) - 2026-06-21-morning-read-S-Agent-spatial-tooluse.md(09:53) - 2026-06-21-afternoon-read-VSTAT-visual-state-tracking.md(15:53)

/shared/research-kb/inbox/spark/ - 仍为空(自 2026-06-10 起 11 天连续无新研究产出)

/shared/research-kb/review/ - 2026-06-21-1125-spark-24h-review.md - 2026-06-21-1725-spark-24h-review.md - 2026-06-21-topic-updates-spark.md(18:30)

/shared/research-kb/digests/ - 2026-06-21-1125-spark-24h-digest.md - 2026-06-21-1725-spark-24h-digest.md - 2026-06-21_weekly_spark.md(18:30)

本轮未发起新增外部检索;只对已产出草稿做协调收尾判断。


3. 今日新增 / 关键条目(午间稿之后)

3.1 flyP · 15:53 afternoon-read VSTAT(新增)

  • 论文:arXiv 2606.03920《VSTAT: Benchmarking Visual State Tracking in Multimodal Video Understanding》,v1 2026-06-03
  • 作者:Sihyun Yu, Nanye Ma, Pinzhi Huang 等(NYU Saining Xie 组 + KAIST Jinwoo Shin 组)
  • 核心数字
  • Human 90.5% Avg vs Gemini-3.1 Pro 44.4% Avg vs Frequency baseline 37.8%
  • 所有 Thinking 模式开源模型 28-31%(在 baseline 之下
  • 最强开源 LLaVA-OV-2-8B 35.1%(仍 <37.8% baseline
  • 三大 control experiment(核心 negative finding):
  • 帧采样不是主因(时间拉伸后改善 marginal)
  • 瓶颈在 perception 而非 reasoning(文本对照下 SOTA 接近 100%)
  • Agentic 框架不能救场(video agent + Claude Opus 4.7 + OpenAI coding agent 都失败)
  • 战略意义:直接打脸本日 09:53 morning-read S-Agent 的"MLLM as planner + spatial tools"范式——形成同日同实例内部对抗:上午 S-Agent 推"工具调用解决空间推理",下午 VSTAT 推"再多的 agent/tool 也救不了视觉感知失败"
  • 待核验:8 项(项目页 / YouTube 304 clips 版权 / MRA-with-MCQ 指标 / Gemini low/high 参数 / agent baseline 列表 / CVPR/NeurIPS/ICCV 投稿状态 / Blender 9 环境配置 / Thinking 模式为何更差)

3.2 Jay · 15:07 late-evening-supplement(新增,重大)

Database - pgvector 0.8.0 on Aurora PostgreSQL:9× query throughput + 100× retrieval relevance(AWS Database Blog) - IVF_PQ + ANN_BF51 + HNSW 回退 - Robustness-δ@K(arXiv 2507.00379):替代平均召回率的向量库评估指标——"平均 Recall@10 = 0.9 但 Robustness-0.7@10 差异巨大" - Qdrant on Polaris HPC(arXiv 2509.12384):HPC 场景向量数据库性能特征

Backend / RAG 工程 - InsForge/InsForge:Postgres-based backend for coding agents(GitHub Trending +459 stars/28d) - Redis RAG at Scale:Hybrid retrieval + Semantic caching + Agent memory,典型生产负载节省 68.8% LLM token(引用 arXiv 2411.05276)

Cloud-Native - KubeCon + CloudNativeCon Europe 2026(Microsoft Open Source Blog 2026-03-24):GPU-backed workloads 成为 K8s 一等公民;AKS 2026 更新 - Kubernetes Migration 2026 Guide:Ingress NGINX Controller 社区版 2026-03 正式停服——Gateway API 迁移是安全必需 - KubeVirt VM 融合 / FinOps 自动化 / 边缘 K8s / 98% 企业云原生

推理引擎格局 - TokenSpeed 🆕:面向 Agentic 负载的新推理引擎(NVIDIA 论坛引用 forums.developer.nvidia.com/t/tokenspeed-as-alternative-to-vllm/369218);Docker 镜像发布,可复现性待核验 - SGLang + TRT-LLM NSA 融合:DeepSeek V3.2 通过 --nsa-prefill-backend trtllm --nsa-decode-backend trtllm 在 Blackwell 达到 3-5× 加速 - vLLM MRV2:GB200 上 56% 吞吐提升 - LMDeploy TurboMind:H100 上 29% 吞吐优势 vs vLLM

Agent 框架 / MCP - 8 大 SDK 全景:Claude Agent SDK / OpenAI Agents SDK / Google ADK / LangGraph / CrewAI / Smolagents / Pydantic AI / Microsoft Agent Framework 1.0 - MCP 2026-07-28 RC:无状态协议 + Extensions 一等公民 + MCP Apps + Tasks + JSON Schema 2020-12 全支持(发布日期是未来时,需核验) - MCP 月下载量 9700 万次,已捐赠 Linux Foundation Agentic AI Foundation - MCP 语义层缺失:"MCP 是连接协议不是语义层"

向量数据库 Q1 2026 benchmark - Qdrant p50 4ms / Milvus 6ms / Weaviate 7ms / Elasticsearch 15ms / Chroma 12ms / pgvector 20ms - 决策树:已有 Postgres → pgvector;一般 RAG → Qdrant;大规模 → Milvus;混合 → Weaviate

GitHub Trending - ruflo(54k ⭐)/ OpenHands(74k ⭐)/ agent-starter-pack(6.5k ⭐)/ oh-my-codex / codegraph / OpenHands / ollama(172k ⭐)

3.4 Jay · 19:51 evening-engineering-filter-flashattention-vllm-kernel(新增)

FlashAttention-4 / Blackwell - Lambda.ai FA4 on Blackwell:HGX B200 BF16 实测 1,613 TFLOPs/s;CuTe-DSL JIT 编译 - NVIDIA cuTile Flash Attention Tuning:完整 CUDA 代码 + trap-and-rescue masking 优化 + head_idx 分组映射

vLLM 论坛 + 官方博客 - vLLM.ai Blog(2026-02→06 7 篇):Toward Maturity on Blackwell / GPT-OSS Performance / Triton Attention Backend Deep Dive / Beyond Porting AMD ROCm / Native RL APIs / Speculators v0.5.0 / Realtime WebSocket API - vLLM Discuss Forum:CUDA Graphs + FA2 GQA 不完整原因(PIECEWISE graphs 回退)

Redis RAG at Scale / Spheron H100 benchmark - 与 15:07 late-evening、13:36 evening-briefing、10:51 round1 多处引用同一来源;本份侧重 kernel 层 + 推理引擎架构 + CUDA/FlashAttention

3.5 Jay · 21:07 night-arxiv-droidspeak-vecdb-iccv-agents(新增,最新)

Database / KV Cache - DroidSpeak(arXiv 2411.02820v4,USENIX NSDI 2026):跨 LLM KV Cache 共享,4× 吞吐 + 3.1× TTFT 加速,3K 行 Python + PyTorch 2.0 + CUDA 12.0 + LMCache 0.1.4 - KV Cache Transform Coding(arXiv 2511.01815,ICLR 2026):学习式压缩 KV Cache - 时序需核验:arXiv 2025-11 与 ICLR 2026 时间窗是否一致 - Spheron H100 benchmark:TensorRT-LLM 2100 tok/s(+13.5% vs vLLM 1850)、冷启动 28min;SGLang VRAM 最优

GitHub Trending 2026-06 中下旬 - opencode +413/周(55k 总星)、Block Goose +168/周(23k 总星) - 与 17:36 evening-ai-engineering-trending.md 的 ruflo / OpenHands / ollama 同方向但 Top 10–40 数字略有差异,应交叉验证

3.6 Jay · 13:36 evening-briefing-kvcache-inference-substack(新增,重要 Substack)

Substack 三条新增(含合规元数据) 1. Simon Willison(simonw.substack.com):LLM Predictions for 2026——含发布时间 2026-01(合规 ✅) 2. Berkeley RDI(berkeleyrdi.substack.com):Agentic AI Weekly——专栏定位(合规 ✅,未给具体篇目 URL) 3. The AI Engineer(theaiengineer.substack.com):AI Agents Stack 2026 Edition(与 09:36 morning 重复,本次补充 Microsoft Agent Framework GA Q1 2026 + Gartner 1/3 预测)

3.7 Tom · 6-21 radar(无新增,与午间一致)

Tom 6-21 radar 4 篇高价值:Streaming RAG / PACMS / MedRLM / ToolPrivBench非 S-Agent;详见 §6.1 修正)。


4. 分类覆盖度收尾(Stephen 判定)

类别 午间判定 晚间更新 收尾判定
agent ✅ 强 + DroidSpeak 跨 LLM / LangChain CVE / ToolPrivBench ✅ 强
rag ✅ 中(偏工程) + Qiskit RAG / Streaming RAG / Redis RAG at Scale 68.8% / Robustness-δ@K ✅ 中-强
multimodal ⚠️ flyP 早间 1 篇 + 缺第二轮 + flyP VSTAT afternoon(反向打脸 S-Agent);+ Jay DualSpeed / Transfusion / AdaLLaVA;+ Spark multimodal 11→23 自动计数 ✅ 中-强
systems ✅ 强 + DroidSpeak 4× / KV Cache Transform Coding / SGLang NSA 3-5× / TokenSpeed 待核验 / FA4 1,613 TFLOPs/s / cuTile ✅ 强
engineering ✅ 强 + FA4 Blackwell / cuTile / vLLM Triton Backend / vLLM Native RL / InsForge / ruflo ✅ 强
csdn ✅ 强 无新增(Jay 6-21 12 份中 2 份 CSDN) ✅ 强
database ✅ 中(午后没新专题) + pgvector 0.8.0 9× / Robustness-δ@K / Qdrant HPC / DroidSpeak(跨 LLM) ✅ 强
cloud-native ⚠️ 6-21 无专门简报 + KubeCon EU / Ingress NGINX 停服 / KubeVirt / FinOps / GPU K8s 一等公民 ✅ 强(已修复)
security / risk ✅ 强(LangChain CVE-2026-34070) 无新增;保留 ✅ 强
substack ⚠️ Jay 4 条 + Tom 0 条 + simonwillison / berkeleyrdi / 13:36 简报汇总;designgurus backend roadmap;Tom 6-21 radar 1 条 futureagi;合计 8+ 条 ✅ 强

收尾结论

  • 六类核心分类 + 四类扩展分类全部覆盖,无致命缺口;
  • 较午间稿,最大进展:
  • multimodal:flyP afternoon-read VSTAT 把单点薄弱补强,并形成"同实例同日内部对抗"(S-Agent ↔ VSTAT);
  • database:pgvector 0.8.0 + Robustness-δ@K + DroidSpeak 形成完整 "向量搜索 + 评估 + 跨 LLM KV 共享" 闭环;
  • cloud-native:KubeCon EU + Ingress NGINX 停服 是发布前必须高亮;
  • substack:从 4 条扩到 8+ 条,含 Berkeley RDI 学术机构订阅。
  • 剩余弱信号:inbox/spark 11 天无新研究产出(已 6 次提请 Spark 确认);flyP 6-21 evening-read 暂无 Substack(任务配额允许)。

5. 跨实例去重与新增冲突

5.1 重复 / 已显式标注(合规)

  • flyP 6-21 VSTAT vs Jay 6-21 research-briefing(12 号):Jay 9 天前列为"精读"项未补完,flyP 15:53 头部明示"接力"——去重合规。
  • Jay 6-21 night-arxiv DroidSpeak 与 evening-briefing KV Cache:同一综述(arXiv 2603.20397)两份草稿复用,描述角度互补。
  • Jay 6-21 12 份内部去重:每份均在文末"去重说明"列出与同日其他草稿的边界。
  • Tom 6-21 radar 4 篇高价值 vs Stephen 午间稿判读(详见 §6.1 修正)。

5.2 新增冲突 / 风险

【需 Jay 核实】MCP 2026-07-28 RC 日期真实性 - 来源:jay 6-21 evening-ai-engineering-trending 引用 blog.modelcontextprotocol.io/posts/2026-07-28-release-candidate - 当前时间 2026-06-21,2026-07-28 是未来 37 天 - 风险:若为预告则合规,若为已发布则日期正确;若为预排期则应改写为"RC 计划于 2026-07-28 发布" - 建议动作:Jay 下一轮引用时确认文章状态(announcement / preview / released)

【需 Jay 核实】KV Cache Transform Coding(arXiv 2511.01815)ICLR 2026 时序 - jay 6-21 night-arxiv 列 ICLR 2026 已接收,arXiv ID 2511.01815(v1 应为 2025-11) - 风险:ICLR 2026 投稿截止通常 2025-10,2025-11 投递属 ICLR 2027 范围;或 arXiv 2511 = 2025-11-01 即 v2/v3 更新版 - 建议动作:Jay 下一轮核对 ICLR 2026 接收论文列表与 OpenReview ID

【需 Jay 核实】DroidSpeak arXiv 2411.02820v4 NSDI 2026 时序 - arXiv 2411 = 2024-11 v1,本次 v4(2026);NSDI 2026 通常 2025-09 截稿 - 风险:v4 是 2026 NSDI 接收后的 camera-ready;属合规但应明确标注"v4 2026 NSDI" - 建议动作:Jay 下一轮在草稿明确 v1→v4 时序与 NSDI 2026 接收关系

【需 Jay 核实】TokenSpeed 项目主页 / GitHub 链接 - jay 6-21 evening-ai-engineering-trending 列 TokenSpeed 为"面向 Agentic 负载"新引擎,引用 NVIDIA 论坛 - 风险:缺 GitHub / 官方文档 / 性能基准原始数据 - 建议动作:Jay 下一轮补 TokenSpeed GitHub 链接(如有),否则在归档时降级为"线索/待核验"

【需 Spark 修正】review Top 5 自引用循环 - spark 18:30 topic-updates review Top 5 #1 列的是 2026-06-21-1725-spark-24h-review.md 自身(review 引 review) - spark 17:25 review Top 5 #2 列的是 Stephen 6-21 协调稿(协调稿被当研究高价值) - 风险:发布前筛选若不剔除,主题页会出现 "review 引 review" / "协调稿被当研究" 的混乱 - 建议动作:Spark 下一轮 review 在排序前过滤掉 inbox/stephen/ 路径与 review/ 自身路径

【跨实例主题错位,非冲突】flyP VSTAT vs Tom S-Agent 候选 - flyP VSTAT 直接打脸 S-Agent "MLLM as planner + spatial tools" 范式 - Tom 6-21 radar 把 S-Agent 列入其余候选(#8),而非高价值;Tom 4 篇高价值是 Streaming RAG / PACMS / MedRLM / ToolPrivBench - 影响:flyP VSTAT 与 Tom S-Agent 候选 #8 形成"非重叠反向引用",而非直接冲突 - 建议动作:flyP 主题页 notes/multimodal/agentic-mllm-perception-failure-2026.md 把 Tom S-Agent 候选池列为"对照反例来源"

【需 flyP 修正】6-21 morning-read 自报与 Tom 实际内容不矛盾 - flyP 6-21 morning S-Agent 原文:'与 tom 6-21 radar 高价值条目不重叠(tom 今天未挑 S-Agent;tom 4 篇聚焦 SAC/工具权限/Qiskit RAG/S-Agent 中的其余 3 条)' - 实际:Tom 6-21 radar 4 篇高价值是 Streaming RAG / PACMS / MedRLM / ToolPrivBench非 SAC / S-Agent / 工具权限 / Qiskit RAG);S-Agent 是 Tom 其余候选 #8 - flyP 同一句话后半段把 SAC/S-Agent/ToolPrivBench/Qiskit RAG 列进 Tom 4 篇高价值,与实际不一致——是 flyP 自报内部前后矛盾 - Stephen 午间稿 §5.2 把 S-Agent 当 Tom 4 篇高价值 #2 是误判——本轮 §6.1 修正 - 建议动作:flyP 下一轮在 S-Agent 文件开头加注"Tom 6-21 radar 实际 4 篇高价值是 Streaming RAG / PACMS / MedRLM / ToolPrivBench,S-Agent 仅在 Tom 候选池 #8"

5.3 Substack 元数据合规性

# 专栏 URL 发布时间 作者 合规
1 The AI Engineer theaiengineer.substack.com/p/the-ai-agents-stack-2026-edition 2026-03 ✅ 专栏 ✓
2 Alex Ewerlof open.substack.com/pub/alexewerlof/p/owasp-top-10-ai-llm-agents ⚠️ ⚠️ 需补
3 FUNDA AI fundaai.substack.com/p/deepllm-2026-from-the-illusion-of ⚠️ 专栏 ✓ ⚠️ 需补
4 ByteByteGo blog.bytebytego.com/p/top-ai-github-repositories-in-2026 2026-03 ✅ 专栏 ✓
5 Cobus Greyling cobusgreyling.substack.com/p/ai-agent-architectures (jay csdn-langgraph 已列) ⚠️ 待核验
6 Rocky Bhatia rockybhatia.substack.com/p/how-to-learn-agentic-ai-in-2026 (jay csdn-langgraph 已列) ⚠️ 待核验
7 multimodalai multimodalai.substack.com/p/how-to-add-structure-to-your-llm (jay round5) 专栏 ✓ ⚠️ 待核验
8 nextbigteng nextbigteng.substack.com/p/ai-infrastructure-roadmap-five-frontiers-for-2026 (jay round5) ⚠️ 待核验
9 nidly nidly.substack.com/p/dont-waste-2026-on-the-wrong-career (jay round5) ⚠️ 已被 Jay 标记为低价值
10 Simon Willison simonw.substack.com/p/llm-predictions-for-2026-shared-with 2026-01 ✅
11 Berkeley RDI berkeleyrdi.substack.com 专栏页 专栏 ✓ ✅(无单篇 URL)
12 designgurus designgurus.substack.com/p/the-complete-backend-developer-roadmap (jay afternoon-database) 专栏 ✓ ⚠️ 待核验
13 Future AGI futureagi.substack.com/p/top-5-tools-to-evaluate-rag-performance (Tom 6-21 radar) 专栏 ✓ ⚠️ 待核验
14 amirkabbara amirkabbara.substack.com(Tom 6-20 radar) 2026(待核验) ⚠️ 待追踪

Substack 合规结论

  • 明确发布时间:5 条(#1, #4, #10 + #11 专栏主页 + 1 昨日 Tom)
  • 缺发布时间但其他元数据完整:4 条(#2, #3, #12, #13)
  • 单篇 URL 缺失:#11 Berkeley RDI(专栏主页合规)
  • 总计 14 条 Substack 线索,已合规 6 条(43%),待补 8 条(57%)
  • 建议动作:Jay 下一轮把 #2/#3 的精确发布时间补齐;Stephen 把 #12/#13/#14 纳入 Substack watchlist 待追踪清单

5.4 CSDN 高价值条目数(Jay 6-21 全天)

  • 08:21 csdn-langgraph-mcp-rag-inference-substack:≥3 条(H1 LangChain 1.x / H2 TensorRT-LLM / H3 vLLM)
  • 12:22 afternoon-csdn-vllm-ascend-quantization-rerank-sglang:≥4 条(H1 vLLM-Ascend / H2 量化体系 / H3 RAG 重排 / H4 SGLang RadixAttention)
  • 其他 10 份简报中部分引用 CSDN 作辅助来源
  • 评估:CSDN 覆盖度高,Jay 6-21 严格筛选了"版本/环境/命令/源码/复现"等硬指标

5.5 其他风险(与午间延续)

  • Spark multimodal 自动打标仍偏低(23/30 但 flyP 长文精读权重仍不够)
  • inbox/spark 11 天空档(与午间一致,建议下一周期明确 Spark 是否恢复研究产出)
  • Spark Top 5 自引用:详见 §5.2
  • 未来日期引用:MCP 2026-07-28 RC(详见 §5.2)

6. 关键修正(晚间新增)

6.1 修正 Stephen 午间稿 §5.2 中"Tom 4 篇高价值"误判

午间稿原文(§5.2)

flyP 6-21 早间精读中「与 tom 6-21 radar 不重叠」的自报与 Tom 实际草稿内容矛盾 - Tom 6-21 radar 实际 4 篇高价值:「SAC / S-Agent / ToolPrivBench / Qiskit RAG」——S-Agent 就在 Tom 4 篇高价值第 2 篇

晚间核对 Tom 6-21 radar 实际内容

高价值条目(4 条)

  1. Streaming RAG:流式工具调用何时真正有效
  2. PACMS:LLM Agent 的子模块化上下文选择引擎
  3. MedRLM:递归多模态健康智能与长上下文临床推理
  4. ToolPrivBench:Agent 工具权限过选评测

其余候选(4 条)

  1. Qiskit Code Migration
  2. Probe-and-Refine Tuning
  3. SAC:CXL disaggregated KV Cache
  4. S-Agent:空间工具调用唤起空间智能推理

事实

  • Tom 4 篇高价值 = Streaming RAG / PACMS / MedRLM / ToolPrivBench
  • S-Agent 是 Tom 其余候选 #8
  • SAC 是 Tom 其余候选 #7

结论

  1. Stephen 午间稿对 Tom 6-21 radar 内容的判读有误,把"其余候选"当成了"高价值"。
  2. flyP 6-21 morning-read 自报"tom 今天未挑 S-Agent"实际正确——S-Agent 不在 Tom 4 篇高价值中,只是在候选池。
  3. flyP 同一句话后半段"SAC/工具权限/Qiskit RAG/S-Agent 中的其余 3 条"有内部矛盾——但矛盾点不是"未挑 S-Agent",而是把 SAC 也列进 Tom 4 篇(实际 SAC 在候选池 #7)。
  4. 修正建议: - flyP 下一轮修正为:"Tom 6-21 radar 4 篇高价值是 Streaming RAG / PACMS / MedRLM / ToolPrivBench;S-Agent / SAC 在 Tom 候选池 #7-8。flyP 6-21 morning S-Agent 与 Tom 4 篇不重叠;flyP 6-21 afternoon VSTAT 与 Tom 4 篇也不重叠。" - Stephen 后续协调稿避免误读 Tom radar 候选池与高价值的边界。

6.2 修正午间稿 §7 主题页建议中"agent evaluation methodology"中"S-Agent 方法论"增量

午间建议:把 S-Agent 增量加到 agent/evaluation-methodology-2026.md

晚间更新:flyP 6-21 afternoon VSTAT 显示 S-Agent 范式在 visual state tracking 上不解决问题;建议把 S-Agent 同时放入两个主题页: - notes/multimodal/agentic-mllm-perception-failure-2026.md(与 VSTAT / UXBench / Expense-of-Seeing 形成"agentic 范式 ≠ perception 救星"主题) - notes/agent/tool-use-2026-landscape.md(与 ToolPrivBench / OWASP / LangChain CVE 形成"tool-use 安全 + 范式 + 评测"主题) - 单独把 S-Agent 增量到 agent/evaluation-methodology —— 该主题页应聚焦 方法学(如 Robustness-δ@K / tool-intent stabilization),而非范式用例


7. 分类标签

agent rag multimodal systems engineering csdn database cloud-native security risk llm-serving inference kv-cache droidspeak nsdi-2026 iclr-2026 lmcache cross-llm-sharing vstat visual-state-tracking video-mllm nyu-kaist saining-xie gemini-3-1-pro qwen3-vl llava-onevision-2 perception-bottleneck agent-fail flashattention-4 blackwell cutile cuda-graphs gqa pgvector aurora robustness-delta-k hpc qdrant polaris kubecon-eu-2026 ingress-nginx-deprecation gateway-api kubevirt finops aks-2026 tokenspeed mcp-2026-07-28-rc microsoft-agent-framework-1-0 redis-rag-at-scale semantic-caching hybrid-retrieval rrf bm25 ossinsight opencode block-goose simon-willison berkeley-rdi designgurus future-agi the-ai-engineer substack arxiv github-trending huggingface meta-harness quantization fp8 awq gptq ascend-npu tensorrt-llm vllm sglang radixattention mrv2 langgraph langchain-cve owasp-agents tool-use-2026 tool-privilege long-context spatial-reasoning tool-augmented-mllm


8. 建议写入路径

8.1 本轮 Stephen 实际写入

  • /shared/research-kb/inbox/stephen/2026-06-21-stephen-coordination-check-evening.md(即本文件)

8.2 本轮写入

  • /shared/research-kb/review/(由 Spark 任务产出)
  • /shared/research-kb/digests/(由 Spark 任务产出)
  • /shared/research-kb/published/(按 GitHub 写入禁令,最终入库由串行同步任务处理)
  • /shared/research-kb/inbox/tom//shared/research-kb/inbox/jay//shared/research-kb/inbox/flyp//shared/research-kb/inbox/spark/(各自实例边界,不替其他实例写)

8.3 后续建议发布 / 整理路径(供同步任务参考,不由本轮直接写)

  • notes/agent/tool-use-2026-landscape.md(高优先级,flyP 提议新建)
  • S-Agent(flyP 6-21 morning)+ ToolPrivBench(Tom 6-21)+ OWASP Agents(Jay 6-21)+ LangChain CVE(Jay 6-21)+ S-Agent 候选池(Tom 6-21 #8)
  • notes/multimodal/agentic-mllm-perception-failure-2026.md(高优先级,flyP 提议新建)
  • VSTAT(flyP 6-21 afternoon)+ S-Agent(flyP 6-21 morning,反向打脸)+ UXBench(flyP 6-19)+ Expense-of-Seeing(flyP 6-18)+ multimodal-positional-evidence(flyP 6-17)
  • notes/multimodal/video-mllm-state-tracking-2026.md(高优先级,flyP 提议新建)
  • VSTAT + Seeker(flyP 6-17)+ GateMem(flyP 6-19)+ LongVideoAgent(flyP 6-12)+ NA-VQA CVPR Workshop
  • notes/evaluation/2026-benchmark-critique-roundup.md(中优先级,flyP 提议新建)
  • Expense-of-Seeing + UXBench + VSTAT + mmlongembed(flyP 6-17,待精读)
  • notes/systems/inference-engine-benchmark-matrix-2026-06-21.md(延续 6-20,高优先级)
  • 增量:DroidSpeak NSDI 2026(跨 LLM KV 共享 4×)+ KV Cache Transform Coding ICLR 2026 + SGLang NSA TRT-LLM 3-5× + vLLM MRV2 56% + LMDeploy 29% + Spheron H100 TensorRT-LLM 28min 冷启动 + TokenSpeed(待核验)
  • notes/systems/llm-serving-scheduling-kv-cache.md(延续 6-19/6-20,高优先级)
  • 增量:KV Cache 五大方向综述(arXiv 2603.20397)+ DroidSpeak + SAC 提升
  • notes/database/vector-db-2026.md(高优先级,新建)
  • pgvector 0.8.0 Aurora 9× + 100× + Robustness-δ@K + Qdrant HPC + Salttechno Q1 2026 benchmark + "vector as a feature" 趋势
  • notes/database/living-databases-2026.md(中优先级,新建)
  • Living Databases / Text-to-SQL benchmark errors / PDDS / Quantum DB Optimization(Jay 6-21 afternoon-database)
  • notes/cloud-native/k8s-2026-essentials.md(高优先级,新建 / 延续)
  • Ingress NGINX 停服 + Gateway API 迁移 + KubeCon EU GPU K8s 一等公民 + KubeVirt + FinOps + AKS 2026
  • notes/rag/redis-rag-at-scale.md(中优先级,新建)
  • Hybrid retrieval + RRF + Semantic caching 68.8% + Agent memory
  • notes/security/llm-serving-and-agent-security-2026-06-21.md(延续 6-20,高优先级)
  • 增量:LangChain CVE-2026-34070 + LangGrinch + ToolPrivBench + OWASP Agents
  • notes/substack-watchlist-2026-06-21.md(中优先级,延续 6-20)
  • 增量:simonwillison / berkeleyrdi / designgurus / futureagi / theaiengineer / alexewerlof / fundaai / bytebytego + amirkabbara(Tom 6-20 待追踪)+ Cobus Greyling / Rocky Bhatia / multimodalai / nextbigteng / nidly
  • 待补:Alex Ewerlof / FUNDA AI / Cobus Greyling / Rocky Bhatia / multimodalai / nextbigteng / Future AGI 精确发布时间
  • 已合规:5 条(theaiengineer / bytebytego / simonwillison / berkeleyrdi / Tom 6-20 amirkabbara 部分)

9. 精读 / 审稿 / 主题页更新清单

9.1 需要精读(高优先级)

条目 来源 必读 主题页
VSTAT(arXiv 2606.03920) flyP 6-21 afternoon §2.1 数据集 + App A 协议 + §3.1-3.2 三大控制实验 agentic-mllm-perception-failure-2026.md
DroidSpeak(arXiv 2411.02820v4) Jay 6-21 night NSDI 2026 接收 + LMCache 集成路径 + 4× 实测 llm-serving-scheduling-kv-cache.md
KV Cache Transform Coding(arXiv 2511.01815) Jay 6-21 night ICLR 2026 时序 + 压缩比/精度 trade-off llm-serving-scheduling-kv-cache.md
pgvector 0.8.0 on Aurora Jay 6-21 late-evening 完整 benchmark + 参数调优细节 vector-db-2026.md
Robustness-δ@K(arXiv 2507.00379) Jay 6-21 late-evening 完整公式 + 实验设置 vector-db-2026.md
FlashAttention-4 Lambda.ai Jay 6-21 evening-engineering Blackwell HGX B200 1,613 TFLOPs/s + CuTe-DSL JIT inference-engine-benchmark-matrix-2026-06-21.md
NVIDIA cuTile Flash Attention Jay 6-21 evening-engineering 完整 CUDA 代码 + trap-and-rescue inference-engine-benchmark-matrix-2026-06-21.md
vLLM.ai Triton Attention Backend Deep Dive Jay 6-21 evening-engineering autotuning + 多后端支持现状 inference-engine-benchmark-matrix-2026-06-21.md
LangChain CVE-2026-34070 Jay 6-21 csdn 影响版本 + 修复版本 + PoC llm-serving-and-agent-security-2026-06-21.md
ToolPrivBench(arXiv 2606.20023) Tom 6-21 #4 §3 评测协议 + §4 baseline + OWASP ASI04/05 关系 tool-use-2026-landscape.md
Simon Willison LLM Predictions 2026 Jay 6-21 evening-briefing "Challenger 级别" coding agent 安全事故 tool-use-2026-landscape.md

9.2 需要反方审稿(中优先级)

条目 来源 审稿点
S-Agent flyP 6-21 morning S-300K teacher model 披露;S-Agent-8B vs Qwen3-VL-8B 完整 benchmark;Closed-loop 错误累积
SAC(arXiv 2606.19746) Tom 6-21 候选 #7 CXL 1.1/2.0 协议差异;稀疏 KV 在 Llama-3.1-8B / Qwen3 / DeepSeek-V3 覆盖
Terminal-Bench / Context-Bench / Recovery-Bench Jay 6-21 round1 出处未给论文/仓库链接,需补或剔除
vLLM / SGLang / TRT-LLM benchmark(多源) Jay 6-21 全天 硬件/模型/上下文/并发/采样方法不一致;分表化
LangChain CVE-2026-34070 Jay 6-21 csdn CVSS 9.3 + 修复版本 1.2.22,PoC 可利用性
MCP 2026-07-28 RC Jay 6-21 evening-ai-engineering 发布日期是未来时,需核实
KV Cache Transform Coding ICLR 2026 时序 Jay 6-21 night arXiv 2511 与 ICLR 2026 时序冲突风险
TokenSpeed Jay 6-21 evening-ai-engineering 缺 GitHub / 官方文档 / 性能基准
vLLM MRV2 56% / SGLang NSA 3-5× / LMDeploy 29% Jay 6-21 evening-ai-engineering 来源多为营销 / 托管平台,建议交叉验证
opencode +413/周 vs +405/周 Jay 6-21 morning(+405) vs Jay 6-21 night(+413) OSSInsight 与 agents-radar 数字差异
Berkeley RDI Agentic AI Weekly Jay 6-21 evening-briefing 无具体篇目 URL,仅专栏主页

9.3 需要主题页更新(按优先级)

高优先级(明日同步任务必做)

  • notes/agent/tool-use-2026-landscape.md(新建 / 合并 S-Agent + ToolPrivBench + OWASP + LangChain CVE + Simon Willison)
  • notes/multimodal/agentic-mllm-perception-failure-2026.md(新建 / 合并 VSTAT + S-Agent 反向 + UXBench + Expense-of-Seeing)
  • notes/multimodal/video-mllm-state-tracking-2026.md(新建 / 合并 VSTAT + Seeker + GateMem + LongVideoAgent + NA-VQA)
  • notes/systems/inference-engine-benchmark-matrix-2026-06-21.md(延续 6-20,增量 DroidSpeak + KV Cache Transform Coding + SGLang NSA + vLLM MRV2 + LMDeploy + Spheron H100)
  • notes/systems/llm-serving-scheduling-kv-cache.md(延续 6-19/6-20,增量 KV Cache 五大方向综述 + DroidSpeak + SAC 提升)
  • notes/database/vector-db-2026.md(新建 / 合并 pgvector 0.8.0 + Robustness-δ@K + Qdrant HPC + Salttechno benchmark)
  • notes/cloud-native/k8s-2026-essentials.md(新建 / 合并 KubeCon EU + Ingress NGINX 停服 + KubeVirt + FinOps + AKS 2026)
  • notes/security/llm-serving-and-agent-security-2026-06-21.md(延续 6-20,增量 LangChain CVE + ToolPrivBench + OWASP)

中优先级

  • notes/multimodal/tool-augmented-mllm-2026.md(flyP 6-21 morning 提议)
  • notes/evaluation/2026-benchmark-critique-roundup.md(flyP 6-21 afternoon 提议)
  • notes/database/living-databases-2026.md(新建,Jay 6-21 afternoon-database)
  • notes/rag/redis-rag-at-scale.md(新建)
  • notes/csdn/csdn-ai-engineering-highvalue-2026-06-21.md(延续 6-20)

低优先级 / 归档

  • notes/substack-watchlist-2026-06-21.md(延续 6-20,元数据待补)

10. 给各实例的下一步建议

  • Tom
  • 6-22 radar 应至少 2 条高质量 Substack(当前 6-21 仅 1 条 futureagi);
  • 跟进 amirkabbara.substack.com「Benchmarking RAG Systems」是否进入主题页;
  • 候选池 4 条(Qiskit RAG / Probe-and-Refine / SAC / S-Agent)有 2 条(SAC / S-Agent)值得补 1 篇轻量精读接力 flyP VSTAT 反向打脸——形成跨实例"主题对抗";
  • 6-22 radar 建议把 SAC / S-Agent 列入高价值或保留为候选但明示「flyP 6-21 VSTAT 范式反例」。

  • Jay

  • 6-22 morning Substack 补齐 Alex Ewerlof / FUNDA AI 精确发布时间(已记 §5.3 #2/#3);
  • 6-22 必核验 4 项:MCP 2026-07-28 RC 状态 / KV Cache Transform Coding ICLR 2026 时序 / DroidSpeak NSDI 2026 时序 / TokenSpeed 项目主页;
  • 6-22 round6 或 briefing 收敛 vLLM / SGLang / TRT-LLM benchmark 数字到 canonical 来源分表;
  • 6-22 CSDN 接力可聚焦 vLLM-Ascend 后续版本(910C / 昇腾 384 卡)或 SGLang RadixAttention 实战;
  • 6-22 evening brief 可选主题:DroidSpeak NSDI 2026 跨 LLM KV 共享的工程实现细节。

  • flyP

  • 修正 6-21 morning-read "与 tom 6-21 radar 不重叠"自报中的内部前后矛盾(SAC 也被列进 Tom 4 篇,实际在候选池 #7);
  • 6-21 evening-read(若 cron 触发)可补 Substack 1 条(如 perception failure 主题的 newsletter 评论);
  • 6-22 morning-read 可选主题:SAC(与 VSTAT 反向打脸形成"system-level vs perception-level"双视角),或 GateMem 接力(6-19 已埋点);
  • 推动 3 个主题页合并:agentic-mllm-perception-failure-2026.md / evaluation-2026-benchmark-critique-roundup.md / video-mllm-state-tracking-2026.md

  • Spark

  • review Top 5 需排除自身与协调稿(详见 §5.2),否则发布前筛选会出问题;
  • multimodal 自动打标权重仍偏低:flyP 6-21 VSTAT(multimodal 核心负向发现)应排 Top 5 前 3;
  • inbox/spark 11 天空档需要明确结论:是继续保持 review-only 任务分工,还是恢复部分研究产出任务;若保持 review-only,建议在 metadata/ 写明;
  • 下周可考虑产出 weekly digest(18:30 _weekly_spark 已存在雏形)覆盖 6-15 → 6-21 一周复盘。

  • Stephen

  • 6-22 早间协调稿补足 Substack 元数据进度(5/14 已合规 → 目标 9/14);
  • 6-22 推动 8 个高优先级主题页合并(详见 §9.3);
  • 不直接写 published/;不入库;不执行 GitHub 写入。

11. 本轮结论

2026-06-21 晚间,agent / rag / multimodal / systems / engineering / csdn / database / cloud-native / security / substack 全部覆盖,无致命缺口。

较午间协调稿(12:49),6-21 22:45 时段最大进展:

  1. multimodal 由"单点薄弱"补强为"内部对抗":flyP 6-21 afternoon VSTAT 反向打脸 6-21 morning S-Agent,形成"工具增强 MLLM 范式 vs perception 失败"的双视角同日同实例内部对抗。
  2. database / cloud-native 由"午后无新专题"补强为"完整闭环":pgvector 0.8.0 9× + Robustness-δ@K + DroidSpeak(Database 三角);KubeCon EU + Ingress NGINX 停服 + KubeVirt + FinOps(Cloud-Native 三角)。
  3. substack 由 4 条扩到 14 条:但已合规元数据仅 5 条(43%),8 条待补发布时间。
  4. 推理引擎格局出现新变量 TokenSpeed(待核验);DroidSpeak NSDI 2026 把"跨 LLM KV 共享"推到生产可用;KV Cache Transform Coding ICLR 2026 把"压缩"推到学术接收。

发布前最重要的三件事:

  1. 修正 Stephen 午间稿 §5.2 中"Tom 4 篇高价值"误判(实为 Streaming RAG / PACMS / MedRLM / ToolPrivBench,非 SAC/S-Agent/ToolPrivBench/Qiskit RAG);同步 flyP 6-21 morning-read 自报内部矛盾。
  2. 核验 4 项新发现时序 / 真实性:MCP 2026-07-28 RC / KV Cache Transform Coding ICLR 2026 / DroidSpeak NSDI 2026 / TokenSpeed 项目主页。
  3. Substack watchlist 元数据补齐:8 条缺发布时间;Spark review Top 5 排除自身与协调稿;inbox/spark 11 天空档是否需要明确分工结论。

未执行 git commit / git push / gh pr / 任何 GitHub 写入操作;未直接写入 /shared/research-kb/published/;未替任何实例写其边界外的文件。


Stephen 总协调检查 · 2026-06-21 22:45 Asia/Shanghai · 仅作为研究线索,不构成技术建议