← 笔记
Stephen 2026-06-26

Stephen 总协调检查 · 2026-06-26 晚间

生成时间:2026-06-26 22:45 Asia/Shanghai 实例:Stephen 性质:跨实例协调草稿;不执行 git commit / git push / gh pr;不直接写入 published


0. 与今日午间协调稿的关系

  • 6-26 午间稿路径:/shared/research-kb/inbox/stephen/2026-06-26-stephen-coordination-check.md(12:45,28KB)
  • 上棒(6-25 22:45)路径:/shared/research-kb/inbox/stephen/2026-06-25-stephen-coordination-check-evening.md
  • 本棒覆盖 6-26 12:45 → 22:45 的新增产出,定位为 6-26 afternoon + evening 收口(明早 6-27 由下一次 cron 接管)。
  • 6-26 全日合计新增草稿 15 份:jay 12 份(08:22 / 09:37 / 10:52 / 11:08 / 12:21 / 13:35 / 14:52 / 15:07 / 16:21 / 17:35 / 19:52 / 21:07) / tom 1 份(20:40)/ flyP 2 份(09:51 / 15:51)/ Stephen 1 份(本文件)/ Spark 持续 16 天空档
  • 本棒重点:下午 + 晚间 7 份 jay + 1 份 tom + 1 份 flyP 的跨实例去重、缺口判定、主题页候选。

1. 本次主题

对 2026-06-26 12:45 → 22:45 各实例研究简报做跨实例协调收口,覆盖:

  • vLLM vs SGLang 选型框架四源汇流(jay 1050 / 1455 / 1505 / 1735)—— prefix-overlap ratio 作为分水岭指标已稳定;阿里云中文实测(jay 1735)和 H100 NSA+TRT-LLM DSA 基准(jay 1950 R3 / 17:35 #3)补全工程侧;推理引擎选型 2026 主题页立项条件已具备
  • Vector DB 2026 H1 三事件矩阵(jay 1505 + 2105): 1. pgvector CVE-2026-3172(跨 relation 数据泄露,7 天内必须升级 0.8.2) 2. Q1 2026 QPS Benchmark —— pgvectorscale 50M chunks 471 QPS 反超 Qdrant 10×(StreamingDiskANN + Rust + PGRX) 3. Vector DB 选型树收敛 —— 10M 以下 Qdrant 性价比 / 50M+ pgvectorscale / >100M Milvus / 闭域 ACID pgvector
  • RAG 范式迁移三条主线成型(jay 2105 + tom 20:40): 1. RAGPerf 端到端基准(arxiv 2603.10765v1,4 工作负载 5 数据集)+ 多模态代码 / 语音 / 文本覆盖 2. EnterpriseRAG-Bench(arxiv 2605.05253)—— BM25 在企业专有词汇场景反超 embedding(32.8% vs 24.8%) 3. SmartVector 时序置信度嵌入(arxiv 2604.20598)—— Top-1 31%→62% / 过期答案率 35%→13.3% / 单次编辑 re-embedding 成本 -77%
  • Agentic Search 替代 RAG 新证据(jay 1735)—— Anthropic 2025 已将 vector search 从 Claude Code 移除;agent-as-retriever 模式在内部 eval 上比单 Opus 4 高 90.2%;Claude Code / Cursor / Windsurf / Cline / Sourcegraph Amp 均不再将语料索引到向量库;与 RAGPerf + EnterpriseRAG-Bench 构成 RAG vs Agentic Search 2026 H2 关键选择窗口
  • GitHub 2026 可靠性危机(jay 2105)—— 5 月 9 起服务降级事件、4 月 10 起、commit 量 14 亿/月(超 2025 全年 10 亿)、workflow runs 失败率峰值 42%、PR thread 暴露数据库迁移和旧 integer 限制问题;与 jay 1455 推理引擎 Bug 研究([RE] Resource 中位数 15 天、30% 超 30 天)形成 "AI Coding 反噬开发平台"主轴
  • Cilium eBPF 全景更新(jay 2105)—— 1.19.5 / 1.18.11 / 1.17.17 三分支活跃维护;Odigos 零代码追踪 / Falco 运行时安全 / Kepler 功耗 exporter / LoxiLB 5G/Edge LB;与 jay 1735 RBG + KAI Scheduler + Grove + llm-d 共同构成 2026 H2 K8s AI 基础设施完整图谱
  • tom 20:40 雷达 4 高价值(全部 agent / rag / memory / 安全): 1. MemStrata(arXiv 2026-06-25)—— RAG 陈旧事实误差系统量化,AUROC 0.59 是结构性问题 2. MIRROR(arXiv 2026-06-25)—— 首个 agentic RAG 跨表面红队框架,MCTS + novelty gate 3. OpenRCA 2.0(arXiv 2026-06-25)—— PAVE 协议从根因标签升级到因果过程监督 4. CMA(Substack micheallanham 2026-06)—— 持续演化活状态记忆,89% 场景优于传统 RAG,2.4× 延迟代价
  • flyP 15:51 LongShOTBench 短审稿(arXiv 2512.16978v2,MBZUAI,14 作者)—— omni-modal + rubric-level + 105 模型评测,66.64% training-free SOTA;与本周 LongVideoAgent / LongVidSearch / LongVALE 共同构成 长视频评测坐标系
  • CSDN 16:21 大场(jay 1621)—— 20 高价值条目(推理 4 + RAG 4 + Agent 4 + MLOps 4 + Substack 4);Top 3 精读:LLM 推理实战指南(4090 实测 F1=0.89)/ 2025 主流 AI 智能体框架盘点 / 2025 RAG 十大论文(DeepRAG + SafeRAG + HippoRAG 2)
  • MLSys 2026 Oral Meta Llama 部署配置百万级优化(jay 1335)—— 服务近 10 亿月活,H100/H200/MI300X × 张量/流水线/专家/上下文/数据并行 × continuous batching vs prefill-decode disaggregation 设计空间。
  • OWASP Top 10 Agents 2026 速查(jay 1335 + 1735)—— Alex Ewerlof "ASI 1-10" + Semantic Firewall + 最小权限原则 + LLM 不直接访问 API/DB。
  • The AI Engineer Stack 2026 六层(jay 1335 + 1735)—— LLM / Tooling-SDK / Memory / Protocols / Eval / Guardrails;MCP 已成为标准协议层。
  • CNCF Sandbox 三连发(jay 1505)—— llm-d(IBM/Red Hat/Google 联合)/ KAI Scheduler(NVIDIA)/ Grove(NVIDIA 新发布),标志推理框架走向标准化 + 开源治理。

2. 检索范围与本轮输入

2.1 本轮已核对草稿(截至 2026-06-26 22:45 UTC+8)

/shared/research-kb/inbox/jay/(6-26 afternoon + evening 共 7 份,全日合计 12 份单实例占比 80% ⚠️) - 2026-06-26-1335-afternoon-research-new-entries-substack-hf-arxiv.md(13:35,10.8KB,MLSys 2026 Oral + Red Hat + OWASP + Stack 2026 + HF Papers) - MLSys 2026 Oral Meta Llama 部署配置优化(arXiv 2601.20408)—— 服务 10 亿月活,6 维设计空间 + 5 大运营教训 - Red Hat Distributed AI Inference 高级部署模式(2026-06-24)—— prefill/decode 分离 1:3~1:5 / 分层 KV Cache / Speculative Decoding 实测 - OWASP Top 10 Agents 2026 速查(Alex Ewerlof Substack)—— LLM01-10 + ASI01-10 + Semantic Firewall - The AI Engineer Stack 2026 六层(Substack Paolo Perrone)—— 2024→2026 新增 Execution/Harness + Observability 两层 - HF Daily Papers 6-02 PaddlePaddle / 6-10 JD.com / 6-12 Microsoft(含 MAI-Thinking-1、MAI-Code-1-Flash、Scout) - 2026-06-26-1455-engineering-filter-vllm-llm-engine-bugs-grab-production.md(14:52,13.5KB,5 高价值 + 5 丢弃) - vLLM 2026 生产部署完整命令集(SitePoint + Spheron)—— Docker / K8s / FP8 多卡 / OOM 应急 / NCCL P2P - LLM 推理引擎 Bug 分类研究(arXiv 2506.09713v2)—— 6 症状 + 28 根因 + Fix Effort 数据;[RE] Resource 中位数 15 天 30% 超 30 天 - Grab 多 Agent 6 类生产故障(Bhavishya Pandit Substack 2026-03)—— Excessive context / SQL validation / Log investigation / Tool fragmentation / Pipeline health / RCA writing - Label Studio RAG 7 大生产故障(基于 arXiv 2401.05856)—— Missing Content / Missing Top Ranked / Not in Context / Not Extracted / Wrong Format / Incorrect Specificity / Incomplete - Galileo RAG 调试工具对比 2026(Luna-2 + Langfuse + LangSmith + Arize + Whylabs) - 2026-06-26-1505-evening-briefing-inference-agents-vecdb-kubecon-2026.md(15:07,11.6KB,5 主轴全开) - vLLM vs SGLang 2026 决策树(60% prefix overlap = 分水岭)—— Spheron + Techsy + YottaLabs 三方汇总 - The AI Engineer Stack 2026 六层(Substack 重审,Cursor 案例)—— 每 90 分钟基于 acceptance rate 重训 - arXiv VeriCache(2605.17613)—— 有损 KV Cache 变无损,验证 + 推测解码跨压缩策略通用 - GitHub Trending Jun 25 —— OpenMontage +3,719 / stablyai/orca / openai/codex / wshobson/agents / block/goose - CNCF Sandbox 三连发 —— llm-d(IBM/Red Hat/Google)/ KAI Scheduler(NVIDIA)/ Grove(NVIDIA 新) - Vector DB May 2026 回顾 —— pgvector CVE-2026-3172 紧急 / Milvus 3.0.0-beta zero-copy / Qdrant 1.18 TurboQuant / Pinecone Builder $20/月 - 2026-06-26-csdn-llm-agent-rag-mlops.md(16:21,13.4KB,CSDN 16:21 大场 20 条) - 推理优化 4 条:Top 1 qq_31142761 LLM 推理加速全攻略;Top 2 weixin_30099989 LLM 推理实战指南 4090 F1=0.89;Top 3 weixin_54908067 推理框架深度对比 - RAG 4 条:Top 5 qq_56999332 五个关键优化;Top 7 和老莫一起学AI DeepRAG/SafeRAG/HippoRAG 2;Top 8 Python编程杰哥 8 架构横向对比 - AI Agent 4 条:Top 9 kjh2007abc 2025 主流 AI 智能体框架盘点;Top 10 爱编程的小辞 五大框架深度解析;Top 11 高级绘画师PP Multi-Agent 架构模式;Top 12 hewenhu_21 Multi-Agent 框架大盘点 - MLOps 4 条:Top 13 霍格沃兹测试开发学社-小明 MLOps 职业蓝海;Top 14 AgentInsight Agent Ops 新概念 R.E.S.T 框架;Top 15 yonggeit LMOps 平台工程;Top 16 小涂Ss 运维工程师转 AI 全攻略 - Substack 4 条:Future AGI LLM 评测 / Jam with AI 2026 Roadmap / Aishwarya Srinivasan LangChain & LangGraph / Aishwarya Naresh Reganti + Kiriti Badam 九层 AI Agent Stack - 2026-06-26-1735-evening-inference-stack-RBG-K8s-agentic-search-substack.md(17:35,9.2KB,RBG + Agentic Search + 中文实测) - SGLang v0.5.9 生产部署实操(Spheron)—— 4 调优经验(system prompt 修定 / 对话历史 prefix / chunked prefill 4096 / cache hit rate 监控) - RoleBasedGroup(RBG)(GitHub sgl-project/rbg v0.7.0)—— K8s 多角色协作推理编排,gang scheduling + Mooncake 集成 - Agentic Search 替代 RAG 新证据(arxiv 2602.23368 Keyword search is all you need + Medium TowardsAI Anthropic 案例)—— 90.2% agent-as-retriever 优势 - DesignGurus Substack 推理工程四大杠杆(Batching / Caching / Routing / Cost Control) - MultimodalAI Substack 推理引擎选型框架 - 阿里云 SGLang vs vLLM Qwen 实测(H100/H200)—— SGLang TTFT 优 20-50% / TPOT 优 20-40% / 启动快 30% - ossinsight.io 实时排行:OpenHands 60.6K / opencode 55.6K(+355/周)/ OpenAI codex 44.7K - 2026-06-26-evening-engineering-filter.md(19:52,7.6KB,Jay 二筛晚间档) - 保留 A 6 条:R1 SGLang Complete Guide / R2 vLLM vs SGLang 决策框架 / R3 H100 NSA+TRT-LLM DSA 基准(DeepSeek V3.2 3-5× / MRV2 GB200 +56%)/ R4 GitHub Trending Jun 24(anthropics/skills +433 / OpenMontage +3,592 / aws/agent-toolkit-for-aws)/ R5 MS Build 2026 BRK222(gang scheduling / Azure KARS / AKS Claw)/ R6 awesome-ai-agents-2026 - 保留 B / 丢弃:R7 EITT Academy 降级 / R8 Onyx RAG platforms 丢弃 / R9 YouTube 视频形式丢弃 - 2026-06-26-2105-evening-database-backend-cloudnative-ragperf-vecdb-2026.md(21:07,10.5KB,5 大方向 evening 简报) - Vector DB 2026 Q1 Benchmark(Salt Technologies + Medium + Actian)—— pgvectorscale 28ms 471 QPS 远超 Qdrant / Actian 三大坑(ingestion cliff / 多并发元数据过滤 / tail latency) - SmartVector 时序置信度感知嵌入(arXiv 2604.20598)—— Top-1 31%→62% / 过期 35%→13.3% / re-embedding 成本 -77% - RAGPerf 全链路评测框架(arXiv 2603.10765)—— 4 工作负载 5 数据集(Wikipedia 19.3GB 6.41M / Arxiv 48GB 30K / github-code 32GB 11M / People's Speech 35.5GB 0.3M) - EnterpriseRAG-Bench(arXiv 2605.05253)—— BM25 32.8% 反超 embedding 24.8% 召回 - GitHub 2026 可靠性危机(Windows Forum / May 2026)—— 14 亿 commit/月 / 5 月 9 起服务降级 / 失败率 42% - Cilium eBPF 全景(1.19.5 / Odigos / Falco / Kepler / LoxiLB / Retna / Pixie) - System Design Codex Newsletter 延迟优化 4 策略(Caching / CDN / Load Balancing / Async)

jay 6-26 全日 12 份总产出:约 150KB(单实例占比 80%,日均单文件 12.5KB)

/shared/research-kb/inbox/tom/(6-26 afternoon + evening 共 1 份 + 候选 JSON 已存在) - 2026-06-26-agent-rag-longcontext-radar.md(20:40,3.9KB,evening radar · 4 高价值 + 4 常规 + Substack 1 + CSDN 0) - 🔴 MemStrata: Temporal Validity in Retrieval Memory(arXiv 2026-06-25)—— AUROC 0.59 是结构性问题;分层时间记忆 - 🔴 MIRROR: Novelty-Constrained Memory-Guided MCTS Red-Teaming for Agentic RAG(arXiv 2026-06-25)—— 多模态攻击面 73-84% 模板重复率 - 🟠 OpenRCA 2.0: From Outcome Labels to Causal Process Supervision(arXiv 2026-06-25)—— PAVE 协议,长上下文 + 多步推理 + 工具调用综合评测 - 🟡 Continuum Memory Architecture(CMA)(Substack micheallanham 2026-06)—— 89% 优于传统 RAG,2.4× 延迟代价,"记忆漂移"风险 - 常规 4:PhysRAG 物理感知 / Agents That Know Too Much 隐私 / EDA 擦写解耦线性注意力 / Adaptive Evaluation of OOB Defenses - 候选 JSON 2026-06-26-agent-rag-longcontext-candidates.json(20:40,9.9KB) - Substack 1 条 CMA(与 micheallanham 1 条净增;与 6-26-0840 The AI Engineer 不同作者;本次净增 1)

/shared/research-kb/inbox/flyp/(6-26 afternoon 共 1 份) - 2026-06-26-afternoon-read-LongShOTBench-omni-modal-longvideo.md(15:51,11.9KB,flyP 6-26 第 2 篇轻量精读 · omni-modal 长视频) - 精读 arXiv 2512.16978v2 LongShOTBench + LongShOTAgent(MBZUAI 14 作者,2026-06-16 v2 update) - 7 项全打勾(visual+audio+speech+open-ended+multi-turn+intent-driven+rubrics)—— 其他同台 benchmark 最多 3-4 项 - LongShOTAgent = 66.64% overall training-free SOTA - 105 模型评测规模 - 8 项主要问题 / 风险:rubric 客观性 / 数据集规模与版权 / harness multiplier / co-design 偏差 / 多模态 specialists 来源 / 与 LongVideoAgent 等定位重叠 / v1→v2 diff / 作者机构集中度 - 副线索:From Agent Traces to Trust(arXiv 2606.04990v3)—— 下次主读候选 - 可信度:中-高(MBZUAI 视频理解老牌团队;rubric 自动打分细节未披露) - 建议路径:notes/multimodal/long-video-omni-modal-benchmarks.md(新建) + reviews/2026-06-longshotbench-mbzuai.md(短审稿) - 后续验证 4 项(longshot.cvmbzuai.com leaderboard / rubric 机制 / v1→v2 diff / 与 Agent Traces to Trust 整合)

/shared/research-kb/inbox/spark/草稿目录 6-26 仍 0 份;cron review 正常) - 自 2026-06-10 之后,spark 实例仅 1 份历史文件 2026-06-10-agentic-rag-runtime-reliability.md - 截至 2026-06-26 已持续 16 天空档(比 6-25 evening 上棒 15 天再 +1) - 但 cron 仍在产出:最近 2 份 review 在 /shared/research-kb/review/(6-26 17:25 / 6-26 11:25)+ 2 份 digest - 详见 §6 spark 实例状态

/shared/research-kb/review/(Spark cron 最新) - 2026-06-26-1725-spark-24h-review.md(17:25,7.5KB)—— 输入 18 文件,高价值 Top 5 全部 jay + flyp + stephen;冲突风险含 jay 1505 pgvector CVE-2026-3172 / jay 1455 Grab 6 类故障 / jay 1335 OWASP + Stack 2026 / flyp LongShOTBench leaderboard 待补查 - 2026-06-26-1125-spark-24h-review.md(11:25,7.4KB,本棒已读)—— 输入 18 文件

/shared/research-kb/digests/(Spark cron 最新) - 2026-06-26-1725-spark-24h-digest.md(17:25,2.9KB,本棒已读) - 2026-06-26-1125-spark-24h-digest.md(11:25,3.0KB)

2.2 本轮发起新增外部检索

仅对 6-26 12:45 → 22:45 各实例已产出草稿做协调收口判断;本实例(Stephen)的「研究内容」由其他实例产出提供,本棒不参与 arXiv / Substack / CSDN 直接搜索。


3. 6-26 afternoon + evening 高价值条目(按主轴)

3.1 🔥 vLLM vs SGLang 选型框架四源汇流(jay 1050 + 1455 + 1505 + 1735)

核心结论收敛

来源 关键贡献 关键数字
jay 1050 #1(Spheron/LeetLLM) 5 问决策树 + H100 benchmark Llama 3.1 8B SGLang +29% / 70B FP8 差距 <10%
jay 1455 #1(SitePoint/Spheron) 完整生产部署命令 + OOM 应急 --gpu-memory-utilization 0.90 + --ipc=host 关键
jay 1505 #1(Spheron/Techsy/YottaLabs) 60% prefix overlap 分水岭决策树 SGLang TTFT -20-40% / vLLM 3,500 tokens/s
jay 1735 #1(Spheron)+ 阿里云实测 SGLang 4 调优经验 + Qwen 中文实测 SGLang 启动快 30% / Qwen2.5 TTFT 优 20-50%
jay 1950 R3(Spheron H100) SGLang NSA + TRT-LLM DSA 在 Blackwell DeepSeek V3.2 +3-5× / MRV2 GB200 +56%

统一决策框架(精炼): - Prefix overlap > 60%(RAG 文档复用 / 工具定义块 / 系统提示)→ SGLang(RadixAttention 复用共享前缀 KV cache,TTFT 降低 20-40%) - Speculative decoding 为主(低延迟生成 / Eagle3 + MRV2)→ vLLM(EAGLE 集成完善,SGLang 实验性) - 唯一 prompt 高吞吐 / 多 LoRA / 结构化 JSON → 平局 - 国产 Qwen 部署 / 中文场景 / 国内云 → SGLang 略优(阿里云实测)

建议推理引擎选型 2026 主题页 已具备立项条件(4 源 + 中文实测 + H100 数字 + K8s 部署命令 + 调试工具)。可直接进入 published。

3.2 🔥 Vector DB 2026 H1 三事件矩阵(jay 1505 + 2105)

事件 1:pgvector CVE-2026-3172(紧急,🔴 7 天内必须升级) - 风险:跨 PostgreSQL relation 数据泄露 - 修复:升级到 0.8.2 - 来源:jay 1505 + RankSquire "Vector Database News May 2026"

事件 2:Vector DB 2026 Q1 Benchmark 颠覆性数据 - pgvectorscale(50M chunks):28ms p99,471 QPS@95% recall,反超 Qdrant 10× - Qdrant(10M chunks):30-40ms p99,100+ QPS(性价比最优) - Milvus(>100M):40-60ms p99,90+ QPS(超大规模首选) - Pinecone:50-100ms p99,80+ QPS($5000+/月) - 来源:jay 2105 #1(Salt Technologies + Medium + Actian)

事件 3:选型树收敛 - 10M 以下 → Qdrant 性价比 - 10M~50M → pgvector + HNSW 零运维 - 50M~100M → pgvectorscale 471 QPS 10× 反超 - >100M → Milvus zero-copy / Pinecone Serverless - 闭域 ACID + 向量 → pgvector PostgreSQL 单一栈

Actian 三大坑(Vector DB 评估常被忽略): 1. Ingestion cliff —— 72 小时连续写入后查询质量断崖 2. 多并发元数据过滤 —— 100+ 并发 P99 跳 10×(CPU 等磁盘 IO) 3. Tail latency 才是关键 —— p99 100ms 中位 10ms 体感比 p99 50ms 中位 20ms 更慢

建议:Vector DB 主题页紧急追加 pgvector CVE-2026-3172 升级提示(与 jay 6-25 pgvector 0.8.2 收尾合并)+ Q1 2026 QPS Benchmark + 选型树 v3。

3.3 🔥 RAG 范式迁移 2026 三主线(jay 2105 + tom 20:40 + jay 1735)

主线 1:RAGPerf 全链路端到端基准(arXiv 2603.10765v1) - 4 工作负载:Wikipedia 19.3GB 6.41M / Arxiv 48GB 30K / github-code 32GB 11M / People's Speech 35.5GB 0.3M - 索引方法:HNSW / IVF / SQ/PQ - github-code 数据集对代码检索 RAG 直接有用

主线 2:EnterpriseRAG-Bench 企业内部知识库发现(arXiv 2605.05253) - BM25 32.8% 正确率 vs embedding 24.8% 召回率(企业专有词汇 + 内部缩写 + 工单 CRM 场景) - 工程结论:企业 RAG 不要盲目上向量检索,先测 BM25 - 混合检索(BM25 + vector + bash agent 池化)是企业场景的成熟解法

主线 3:SmartVector 时序置信度嵌入(arXiv 2604.20598) - 关键数据:Top-1 31%→62.0% / 过期答案率 35%→13.3% / ECE 0.470→0.244 / 单次编辑 re-embedding 成本 -77% - 神经科学启发:遗忘曲线 + GNN 置信度传播 + 不确定性感知检索 - 实施路径:从时间戳嵌入开始 → 加遗忘曲线 → 成熟后加 GNN 传播

与 Agentic Search 替代 RAG 论点互补(jay 1735): - 通用 Agent(Claude Code 类)放弃向量索引 → 走向 just-in-time loading - 垂直领域知识库(RAG for CS papers)继续向量索引 + 改进时序 - 关键差异:开放域 agentic 任务需要动态检索 / 闭域知识库场景 RAG 仍有结构化优势

建议:RAG 主题页重组为 4 子主题:传统 RAG 优化 / RAG 范式迁移 / Agentic RAG / 时序 RAG(SmartVector + MemStrata 双线)。

3.4 🔥 Agentic Search 替代 RAG 新证据(jay 1735)

3 个独立来源: 1. arXiv 2602.23368 Keyword search is all you need —— keyword search + agentic tool use 达到 RAG 级别性能 2. Medium TowardsAI AI Agents Don't Need Vector Search —— Anthropic 2025 已移除 Claude Code vector search;agent-as-retriever 比单 Opus 4 高 90.2% 3. TowardsAI Building a Modern RAG Agent 2026 —— ArXiv RAG Project(50 万 CS 论文 Qwen3-embedding-8b + Qdrant)

Just-in-time loading 范式: - 按需加载 vs 预先索引 - 多 Agent 研究系统中 agent-as-retriever 模式成为新默认 - Claude Code / Cursor / Windsurf / Cline / Sourcegraph Amp 均不再将语料索引到向量库

与现有 RAG 主题关系: - 与 jay 6-25 DeepNest "RAG → Agent-Reasoning" 路径一致 - 与 tom 6-26 CMA(持续演化活状态)形成"动态检索" vs "持续记忆"两条路径 - 与 jay 6-25 qcx23 "RAG 正在被重写"形成跨实例呼应

建议:RAG 主题页新增「Agentic Search 替代 RAG 2026」子主题;归类为开放域 Agent 检索方案(与闭域 RAG 平行)。

3.5 🟠 GitHub 2026 可靠性危机(jay 2105 + jay 1455)

GitHub 2026 May 数据(jay 2105 #5): - 月 commit 量 14 亿(超 2025 全年 10 亿) - 5 月 9 起服务降级事件、4 月 10 起 - GitHub 自报 workflow runs 失败率峰值 42% - Azure 承载 40% monolith 流量 + 30% Git 流量 - 仓库复制已达 99% - 官方状态视图与第三方实时视图持续分歧

与推理引擎 Bug 研究联合(jay 1455 #2): - [RE] Resource 类 Bug 中位数 15 天,30% 超 30 天 - [RB] Configuration 类 30% Very Hard,中位数 8.8 天 - 涉及 CUDA 内存、GPU 利用率等硬件层面,调试周期长

核心矛盾: - AI Coding 反噬开发平台 - 营销周期快于基础设施周期 - Microsoft/GitHub 正在将客户推向 AI 辅助开发,而非等一个安静两年的可靠性重建

建议:Backend 主题页新增「AI Coding 反噬 GitHub 2026 案例」研究;与 jay 1455 推理引擎 Bug 研究合并为 "AI 时代可靠性危机"专题

3.6 🟠 Cilium eBPF 全景 2026(jay 2105 + 关联 jay 1735 RBG)

Cilium 2026-06-16 当前版本(jay 2105 #6): - v1.19.5(活跃) - v1.18.11 - v1.17.17

eBPF 云原生应用全景: - 网络 + 安全 + 可观测性:Cilium / Calico eBPF dataplane / LoxiLB(5G/Edge LB) - 可观测性(零侵入):Odigos(eBPF 自动插桩)/ Retna / Pixie / Kepler(功耗 exporter) - 追踪与安全:Inspektor Gadget / Falco(运行时安全)/ bcc

与 K8s AI 基础设施联合(jay 1505 #5 + 1735 #2 + 1950 R5): - llm-d(IBM/Red Hat/Google,Sandbox)—— 分布式 LLM 推理框架 - KAI Scheduler(NVIDIA,Sandbox)—— GPU 集群 AI 负载编排 - Grove(NVIDIA,新发布)—— Kubernetes API for AI 负载编排 - RBG(sgl-project,v0.7.0 stable)—— 多角色协作 LLM 推理编排 - Azure KARS / AKS Claw(MS Build 2026)—— secure sandbox + workload identity - 行业背景:82% 组织已在 K8s 上运行 AI 工作负载,但只有 7% 每天在生产部署

建议:Cloud-Native 主题页整合为 "2026 H2 K8s AI 基础设施完整图谱":Cilium eBPF / llm-d / KAI Scheduler / Grove / RBG / KARS / Claw 七项并列 + 选型矩阵。

3.7 🟠 tom 20:40 雷达 4 高价值(全部 agent / rag / memory / 安全)

# 论文 / 来源 核心 评级
1 MemStrata(arXiv 2026-06-25) AUROC 0.59 是结构性问题;分层时间记忆 🔴
2 MIRROR(arXiv 2026-06-25) 首个 agentic RAG 跨表面红队框架;MCTS + novelty gate 🔴
3 OpenRCA 2.0(arXiv 2026-06-25) PAVE 协议从根因标签升级到因果过程监督 🟠
4 CMA(Substack micheallanham 2026-06) 89% 场景优于传统 RAG,2.4× 延迟代价 🟡

与现有主题的归属: - MemStrata + SmartVector → 时序 RAG / 记忆层重构主题 - MIRROR + TRACE(tom 6-25) + MIRROR-style red-team → Agentic RAG 安全主题 - OpenRCA 2.0 + RAGPerf + EnterpriseRAG-Bench → Agent 评测主题 - CMA + Are We Ready For An Agent-Native Memory(jay 6-25)+ MemStrata → Agent 记忆架构主题

常规 4 候选(保留追踪): - PhysRAG 物理感知视频生成(垂直领域,参考价值一般) - Agents That Know Too Much 隐私全景调研(与 SmartVector 隐私方向呼应) - EDA 擦写解耦线性注意力(底层建模贡献) - Adaptive Evaluation of OOB Defenses(Biba 模型统一)

Substack 1 条(micheallanham CMA)—— 净增 1 条;与 6-26-0840 The AI Engineer 重复 0 条(不同作者);与 jay 6-26 各 Substack 0 重复。

3.8 🟡 flyP LongShOTBench 短审稿(flyp 15:51)

详见 §2.1 flyp 单文件精读。8 项风险 / 4 项后续验证动作已完整列出,可作为 长视频评测坐标系主题页入口。

与本周其他稿的关系: - vs LongVideoAgent(flyp 6-12 精读稿)—— multi-agent + RL training vs training-free + search-refine-verify - vs LongVidSearch / Overthinking(flyp 6-23 精读稿)—— 同一焦虑(结构上存在 over-refine 隐患) - vs WeaveBench / Agent-as-a-Judge / benchjack(本周 agent 可信度三条线)—— rubric-level 与"评测可信度"主题呼应

建议路径: - notes/multimodal/long-video-omni-modal-benchmarks.md(新建)—— 把本周看过的 LongShOTBench / LongVideoAgent / LongVALE / VideoOdyssey / Video-MME 排一张统一的"长视频评测坐标系表" - reviews/2026-06-longshotbench-mbzuai.md(短审稿)

3.9 🟡 MLSys 2026 Oral Meta Llama 部署配置优化(jay 1335)

Meta "Optimizing Deployment Configurations for LLM Inference"(arXiv 2601.20408,MLsys 2026 Oral) - 来源:https://mlsys.org/virtual/2026/oral/3780 - 可信度:⭐⭐⭐⭐⭐(Oral 论文 + Meta 服务近 10 亿月活生产数据)

6 维设计空间:H100/H200/MI300X × 张量/流水线/专家/上下文/数据并行 × continuous batching vs prefill-decode disaggregation

5 大运营教训: 1. 并行策略的相位特异性(tensor parallelism prefill 收益高 / decode 受 KV cache 限制) 2. MoE 架构的调度影响(专家并行使单请求跨多 GPU,all-to-all 通信成为瓶颈) 3. 硬件异构性机会(H100 vs H200 在相同功耗下性能曲线不同) 4. 平台扩展行为(单节点 → 多节点扩展时,带宽和通信开销非线性增长) 5. SLO 驱动的配置选择(延迟敏感型 → continuous batching + 小 batch;吞吐敏感型 → 大 batch + 长队列)

与 jay 1455 Red Hat Distributed AI Inference 联合(jay 1335 #2): - prefill:decode worker 配比 1:3 ~ 1:5(不同模型和量化下相当稳定) - 投机解码收益在 continuous batching 场景下会降低(需具体 workload 实测) - 分层 KV Cache:GPU HBM → CPU DRAM → NVMe SSD

建议:推理引擎选型主题页新增「设计空间与运营经验」子节,含 Meta 6 维 + Red Hat 1:3~1:5 比例。

3.10 🟡 OWASP Top 10 Agents 2026 速查(jay 1335 + 1735)

来源:Alex Ewerlof "OWASP Top 10 Agents & AI Vulnerabilities (2026 Cheat Sheet)" —— https://open.substack.com/pub/alexewerlof/p/owasp-top-10-ai-llm-agents

关键概念: - Agent = LLM + while loop + API 访问 - Agent 核心风险来自"循环执行 + 工具访问 + 降低监督"的组合 - LLM01-10 + ASI01-10 完整对照

两条主线的风险差异: - LLM 漏洞:prompt injection / 数据泄露 / 训练数据投毒 / 过度依赖 - Agent 漏洞(ASI):工具权限泛化 / 无意资产暴露 / 循环累积风险 / agent-to-agent 信任问题

缓解措施: - Semantic Firewall —— 隔离的、高度约束的 secondary model 对 agent I/O 安全评估 - 最小权限原则 —— 工具只授予完成当前任务所需的最小权限集 - LLM 不直接访问 API/DB —— 通过受控的 CLI abstraction layer

与现有主题的归属: - 与 jay 6-26-1135 NSA + CSA MCP 安全指南合并为「Agent 安全三层防御」(OS 层 enforcement / Framework guardrails / 生态级 audit) - 与 tom 6-26 MIRROR 跨表面红队框架互补:OWASP 偏规则 / MIRROR 偏自动攻击 - 与 jay 6-26-1455 Grab 6 类生产故障交叉:OWASP ASI 偏架构 / Grab 偏具体故障

3.11 🟢 The AI Engineer Stack 2026 六层(jay 1335 + 1735)

作者:Paolo Perrone,The AI Engineer Substack - 链接:https://theaiengineer.substack.com/p/the-ai-agents-stack-2026-edition - 2026-03-06 发布 - 可信度:⭐⭐⭐⭐⭐

六层架构(2026 版): 1. LLM(基础模型) 2. Tooling / SDK(LangGraph / OpenAI SDK / Anthropic Agent SDK) 3. Memory(context window 管理、session persistence、vector store) 4. Protocols(MCP / A2A / 工具调用协议) 5. Eval(acceptance-rate model、continuous eval) 6. Guardrails(sandbox、权限控制、安全边界)

2024 → 2026 关键演进: - 新增 Execution/Harness 层 - 新增 Observability 层 - Memory 层从"简单 KV store"扩展到"结构化 session + 向量检索 + 外部 DB" - MCP 在 2025-12 捐给 Agentic AI Foundation

Cursor 案例:每 90 分钟基于 acceptance rate 重训 acceptance-rate model

与现有主题的归属: - 与 jay 6-25-1633 The Nuanced Perspective 九层架构对比:6 层 vs 9 层(合并 Eval+Observability=6 / 拆分 Runtimes+Coding Harnesses+Observability=9) - 与 jay 6-26-1050 awesome-harness-engineering整合:六层是诊断 agent 项目复杂度的框架,问题在哪一层比选什么工具更重要

3.12 🟢 阿里云 SGLang vs vLLM Qwen 中文实测(jay 1735)

来源:阿里云函数计算性能测试与评估 - 链接:https://help.aliyun.com/zh/cap/user-guide/performance-comparison-of-deploying-qwen-models-using-sglang-and-vllm - H100/H200 规格

关键数据

模型 指标 SGLang 优势
Qwen2.5-1.5B TTFT SGLang 优 20-50%
Qwen2.5-1.5B TPOT SGLang 优 20-40%
Qwen-QWQ-32B-AWQ 双卡并发 ≤ 5 ~50 tokens/s
Qwen-QWQ-32B 双卡并发 ≤ 5 ~20 tokens/s(Ada 单卡 OOM)

关键发现: - SGLang 启动速度比 vLLM 快约 30% - 多卡 TP 时,模型越大性能收益越明显(20%~50%) - Qwen-QWQ-32B 单卡 Ada 系列 OOM,需 H100/H200 - 显存利用率均接近 100%

建议:推理引擎选型主题页新增「国产 Qwen 部署」子节,含阿里云官方实测数据 + 中文场景选型建议。

当日新增 / 持续高增长

项目 Stars 增量 类型 亮点
calesthio/OpenMontage +3,719 Agentic Video Production 12 pipeline + 52 tools + 500+ skills
stablyai/orca +331 Agent Dev Environment 桌面/移动端并行 coding agent fleet
openai/codex +349 Coding Agent OpenAI 轻量 terminal coding agent
wshobson/agents +50 Multi-harness Plugin Marketplace Claude Code / Codex / Cursor / Windsurf
block/goose +166 Coding Agent Block 开源
anthropics/skills +433 Anthropic 官方 Agent Skills 仓库 重要信号
aws/agent-toolkit-for-aws AWS 官方 MCP + skills + plugins 云厂商进入
apple/container 43.2K +1,351 Apple Silicon Mac Linux 容器 Swift,对 AI 工程团队有直接价值
opendatalab/MinerU PDF/Office → LLM-ready markdown 与 RAG Pipeline 直接相关
google-labs-code/design.md 19.3K +1,475 DESIGN.md 让 coding agent 持久化理解视觉设计

ossinsight.io 实时排行(2026-06-26 附近): - OpenHands: 60.6K stars(+118/wk) - MetaGPT: 59.7K stars(+19/wk) - opencode: 55.6K stars(+355/wk,增长迅猛) - microsoft/AutoGen: 48.3K stars(+30/wk) - openai/codex: 44.7K stars(+221/wk)

建议:Coding-Agent 主题页新增「2026 H1 周增长排行」子节,含 ossinsight.io 数据 + 趋势观察。

3.14 🟢 CSDN 16:21 大场 Top 5 精读(jay 1621)

优先级 条目 来源 核心
🔴 Top 1 LLM 推理实战指南 weixin_30099989 4090 实测 F1=0.89 / kv_cache_dtype float16→bfloat16 显存 -18% / TP=2 + PP=1 吞吐 ×2.3 / RoPE dynamic factor 2.0 128K 12.4s→3.2s
🔴 Top 2 2025 主流 AI 智能体框架盘点 kjh2007abc LangGraph / CrewAI / Semantic Kernel / AutoGen / Dify / MetaGPT / OmAgent 横向对比
🔴 Top 3 2025 RAG 十大论文 和老莫一起学AI DeepRAG / SafeRAG / HippoRAG 2 / MEMERAG / RetroLM / RankCoT
🟡 Top 4 Agent Ops 新概念 AgentInsight mcp.csdn.net R.E.S.T 框架(Reliability / Efficiency / Security / Traceability)+ AgentInsight 国内首个平台
🟡 Top 5 Multi-Agent 系统应用场景与架构模式 高级绘画师PP modelengine Agents as Tools / Swarm / Graph / Workflow 四种模式

Substack 16:21 大场 4 条: - Future AGI LLM Evaluation 2026 / Jam with AI 2026 Roadmap / Aishwarya Srinivasan LangChain & LangGraph / Aishwarya Naresh Reganti + Kiriti Badam 九层 AI Agent Stack

CSDN 中等价值条目: - 推理优化:qq_31142761 推理加速全攻略 / weixin_54908067 推理框架深度对比 - RAG:qq_56999332 五个关键优化 / Python编程杰哥 8 架构横向对比 - Agent:爱编程的小辞 五大框架深度解析 / hewenhu_21 Multi-Agent 框架大盘点 - MLOps:霍格沃兹测试开发学社-小明 职业蓝海 / yonggeit LMOps 平台工程 / 小涂Ss 转型全攻略

3.15 🟢 CNCF Sandbox 三连发 + 阿里云 SGLang 中文实测

详见 §3.1(推理引擎)+ §3.6(云原生)的整合;CSDN Substack 详见 §3.14。

3.16 🟢 分布式系统延迟优化 4 策略(jay 2105 #7)

System Design Codex Newsletter 4 策略: 1. Caching —— 高速内存避免重复 DB 查询 2. CDN —— 静态资产和地理分布内容全球边缘加速 3. Load Balancing —— Round Robin / Least Connections / IP Hash 4. Async Processing —— 长任务后台执行

核心观点:延迟是新的宕机。高延迟对用户体验的伤害不亚于完全不可用。

建议:作为 SRE / 后端团队内部培训材料参考;与 jay 6-25 evening Kafka / Pravega 等数据流方案整合。

3.17 🟢 arXiv VeriCache 有损 KV Cache 变无损(jay 1505 #3)

arXiv 2605.17613 VeriCache = 有损 KV Cache + 在线验证 + 推测解码 - 跨压缩策略(token dropping、quantization)通用 - 当 KV cache 某部分被验证为不可靠时,通过推测解码恢复精度

与 jay 6-26-1135 KV cache 六月新论文集群联合归档: - Unified KV Pooling (2606.14779) / TTKV (2604.19769) / Recency-Frequency Adaptive (2606.21238) / SwiftCache (2606.16135) / VeriCache (2605.17613) = KV cache 优化 5 篇专题

建议:与 jay 6-25 21:07 arXiv 2604.05012 KV Cache 三框架对比 + jay 6-26-1135 KV cache 集群 + jay 6-26-1505 VeriCache 联合 → 形成 KV cache 优化专题页 v2(5 篇新论文 + 综述 + 调度 + 工程方案)。


4. 跨实例冲突 / 重复 / 待确认

4.1 已识别冲突

  1. The AI Engineer Stack 2026 跨实例独立抓取 - jay 6-26-1335(完整六层)+ jay 6-26-1505(Cursor 案例)+ jay 6-26-1735(多视角汇总) - tom 6-26-0840(1 条线索) - 评级一致:⭐⭐⭐⭐⭐ - 建议:合并为单一精读条目 notes/agent/ai-agents-stack-2026.md,3 份 jay 草稿都作为来源;tom 草稿作为补充

  2. OWASP Top 10 Agents 2026 跨实例抓取 - jay 6-26-0935(Substack 完整收录)+ jay 6-26-1335(速查清单)+ jay 6-26-1735(速查摘要) - 评级一致:⭐⭐⭐⭐ - 建议:合并为单一精读条目 notes/security/owasp-top-10-agents-2026.md

  3. vLLM vs SGLang 选型框架跨实例 4 源汇流 - jay 6-26-1050 / 1455 / 1505 / 1735(4 源汇总) - 评级一致:🔥 主题页立项 - 建议:合并为单一主题页 notes/llm-inference/vllm-vs-sglang-2026.md,4 源 + 中文实测 + H100 数字 + K8s 命令

  4. Vector DB 选型 / Benchmark 跨实例多源 - jay 6-26-1505(May 2026 roundup)+ jay 6-26-2105(Q1 2026 QPS benchmark + pgvector CVE) - jay 6-25-1507(pgvectorscale 471 QPS + OpenSearch 3.0 GPU)+ jay 6-25-1735(Medium Top 15 选型树) - 建议:合并为单一主题页 notes/database/vector-db-2026.md,含 CVE 紧急升级 + QPS benchmark + 选型树 v3 + 工程方案

  5. RAG 范式迁移跨实例多源 - jay 6-26-2105(RAGPerf + EnterpriseRAG-Bench + SmartVector) - tom 6-26-2040(MemStrata + CMA) - jay 6-26-1735(Agentic Search 替代 RAG) - jay 6-25-1335(Are We Ready For An Agent-Native Memory)+ jay 6-25-1633(DeepNest RAG → Agent-Reasoning)+ jay 6-25-1633(qcx23 RAG 正在被重写) - 建议:合并为 RAG 主题页 v2 notes/rag/paradigm-migration-2026.md,4 子主题(传统 RAG / 范式迁移 / Agentic RAG / 时序 RAG)

  6. Cilium eBPF + K8s AI 基础设施多源 - jay 6-26-2105(Cilium 1.19.5 + eBPF 全景) - jay 6-26-1735(RBG + Mooncake) - jay 6-26-1505(llm-d + KAI Scheduler + Grove) - jay 6-26-1950 R5(MS Build 2026 BRK222 / Azure KARS / AKS Claw) - 建议:合并为 Cloud-Native 主题页 v2 notes/cloud-native/k8s-ai-infra-2026.md,7 项并列 + 选型矩阵

4.2 ⚠️ 待 Anan 人工确认

  1. Spark 实例持续空档 16 天(自 2026-06-10 之后草稿目录无新文件;cron review 正常产出) - spark cron review 最近 2 份(6-26 17:25 / 6-26 11:25)持续产出且质量稳定 - 判断:spark 实例本身可能未启动(仅 cron 通道活跃),或 cron 误用 *-spark-24h-* 文件名误导 - 建议(连续 6 次提及): a) 确认 Spark 实例是否需要重启; b) 或将 cron 产出文件名从 *-spark-24h-* 改为 *-auto-24h-* 避免误解; c) 或将 cron review/digest 迁入 Spark 实例的真正产出位置
  2. jay 单实例占比 80%(12/15 份):是否合理?其他实例(tom / flyp / spark)总产出偏低 - 建议(连续 2 次提及):观察 1-2 天;若持续 jay 主导,可考虑调整任务分配或降低 jay 频率
  3. flyP 6-26 产出 2 篇质量稳定(AgenticRAG 09:51 + LongShOTBench 15:51)—— 节奏合理,但与上午 AgenticRAG 主题衔接 - 建议:下次 flyP 任务可指定 multimodal / video / agent benchmark 主题(与今日 LongShOTBench 一致)
  4. GitHub 2026 可靠性危机是否需要 Anan 内部公告(与上午 MCP 安全同等级)—— 所有使用 GitHub Copilot 的团队需知

4.3 CSDN 中等价值条目核验

  • jay 6-26-1621 #14 Agent Ops R.E.S.T 框架(mcp.csdn.net/AgentInsight)—— 新概念,需核验 AgentInsight 平台官方文档
  • jay 6-26-1621 #2 weixin_30099989 LLM 推理实战指南(4090 F1=0.89)—— 微信公众号全文,需核验数据可复现性
  • jay 6-26-1621 #11 高级绘画师PP Multi-Agent 架构模式(modelengine.csdn.net)—— 需核验医疗辅助诊断案例图
  • jay 6-26-1621 #16 小涂Ss 运维工程师转 AI 全攻略 —— DeepSpeed 命令 + KServe+Istio + Prometheus 定制监控,需核验命令版本

4.4 arXiv 论文待补查

  • MemStrata(tom 6-26 #1)—— 论文完整 ID / 摘要 / 数据集细节,待 Tom 或 flyP 下次精读
  • MIRROR(tom 6-26 #2)—— 论文完整 ID / novelty constraint 机制,待补查
  • OpenRCA 2.0(tom 6-26 #3)—— PAVE 协议细节 + 因果标注成本,待补查
  • SmartVector(jay 6-26-2105 #2)—— GNN 传播具体架构 / 遗忘曲线参数,待补查
  • EnterpriseRAG-Bench(jay 6-26-2105 #4)—— 3 种检索方式实验设置 / 数据集规模,待补查
  • RAGPerf(jay 6-26-2105 #3)—— github-code 数据集对代码 RAG 的具体评测,待补查
  • VeriCache(jay 6-26-1505 #3)—— 与 SGLang RadixAttention 集成可能性,待补查

5. 分类覆盖判定(6-26 全日截至 22:45)

分类 今日覆盖 主要来源 评级
agent ✅ 极强 jay 12× / tom 1× / flyp 2× 充分
rag ✅ 极强 jay 10× / tom 1× / flyp 1× 充分
multimodal ✅ 强 jay 1221/2105 / flyp 15:51 LongShOTBench 充分
systems ✅ 极强 jay 6-26 1050/1135/1455/1505/1735/2105 KV cache + 推理 + Cilium 充分
engineering ✅ 极强 jay 4× CSDN / 1050/1455 工程筛选 / 1950 R5 / 2105 充分
csdn ✅ 极强 jay 0820/1221/1621/1735 CSDN 充分
database ✅ 极强 jay 6-25/6-26 pgvector / Qdrant / Milvus / OpenSearch / Vector DB 选型 充分
cloud-native ✅ 强 jay 2105 Cilium / 1735 RBG / 1505 llm-d+KAI+Grove / 1950 R5 BRK222 充分
security / risk ✅ 极强 jay 6-26-1135 MCP NSA+CSA / 1455 Grab 6 类 / 1335/1735 OWASP / 2105 GitHub 可靠性 + pgvector CVE 充分
substack ✅ 强 jay 6-26 4 Substack + tom 6-26 1 Substack(净增约 5-6 条) 充分
memory ✅ 强 jay 6-25 Are We Ready For An Agent-Native Memory / 6-26-2105 SmartVector / tom 6-26 MemStrata + CMA 充分
coding-agent ✅ 强 jay 6-26-0935 Moon Bot / 6-26-1505/1735/1950 OpenMontage / OpenHands / opencode / block/goose / anthropics/skills 充分
harness-loop ✅ 强 jay 6-26-1050 arXiv 2606.25189 OS-Level Policy + 6-26-1335 OWASP + 6-26-1735 Stack 2026 充分
llmops ✅ 中 jay 6-26-0935 Backend.ai offloading / 1621 LMOps 平台工程 充分
ai-native ⚠️ 中 jay 6-25 iThome 拐点 / 6-26-2105 GitHub 可靠性 充分
mlops ✅ 强 jay 6-26-1050 Langfuse v2 / 1621 Agent Ops R.E.S.T 充分
MLSys 2026 Oral ✅ 强 jay 6-26-1335 Meta Llama 部署配置 / 6-26-1505 vLLM NSA+TRT-LLM DSA 充分
GitHub 可靠性 ✅ 新增 jay 6-26-2105 #5 GitHub 2026 May 充分

核心判定全部 17 个分类全覆盖(agent / rag / multimodal / systems / engineering / csdn / database / cloud-native / security-risk / substack / memory / coding-agent / harness-loop / llmops / ai-native / mllops / MLSys / GitHub 可靠性);2 个二级分类补强完成(database 从缺口 → 充分 / cloud-native 从缺口 → 充分)。

今日主题页立项条件(建议合并为 7 项): 1. 推理引擎选型 2026(vLLM vs SGLang 4 源汇流 + 阿里云中文实测 + H100 NSA+TRT-LLM) 2. Vector DB 2026 选型 + Benchmark + CVE 跟踪(pgvector CVE-2026-3172 + Q1 QPS benchmark + 选型树 v3) 3. RAG 范式迁移 2026(RAGPerf + EnterpriseRAG-Bench + SmartVector + MemStrata + Agentic Search + CMA) 4. 2026 H2 K8s AI 基础设施完整图谱(Cilium eBPF + llm-d + KAI Scheduler + Grove + RBG + KARS + Claw) 5. KV cache 优化专题页 v2(June 2026 新论文 5 篇 + 综述 + 调度 + VeriCache) 6. AI Agents Stack 2026 三视角汇总(The AI Engineer 6 层 + The Nuanced Perspective 9 层 + awesome-harness-engineering) 7. OWASP Top 10 Agents 2026 + MCP 安全三层防御(OWASP ASI + NSA MCP + CSA MCP + arXiv 2606.25189 OS-Level Policy + Semantic Firewall)


6. Spark 实例状态(持续关注)

6.1 现状

  • 草稿目录 /shared/research-kb/inbox/spark/ 自 2026-06-10 后无新文件(仅 1 份历史 agentic-rag-runtime-reliability.md)
  • 截至 2026-06-26 持续 16 天空档(比 6-25 evening 上棒 15 天再 +1 天)
  • cron review 通道活跃:最近 2 份 review 在 /shared/research-kb/review/(6-26 17:25 / 6-26 11:25),输入 18 文件,输出分类分布 agent 18 / csdn 18 / engineering 18 / rag 18 / systems 17 / multimodal 13 / risk 11 / database 7

6.2 17:25 review 关键发现

  • 高价值 Top 5:tom 6-26 雷达 / jay 6-26-0935 主轴 / flyp 6-26-1551 LongShOTBench / stephen 6-26-1248 协调 / jay 6-26-1221 CSDN 多模态
  • 冲突风险清单
  • jay 6-26-1505 pgvector CVE-2026-3172 紧急(7 天内必须升级)
  • jay 6-26-1455 Grab 6 类生产故障(多 Agent 上线必读)
  • jay 6-26-1335 OWASP + Stack 2026
  • flyp 6-26-1551 LongShOTBench leaderboard 待补查

6.3 建议(待 Anan 决定)

  • 方案 A:保留 cron review 通道(作为质量守门人),将 Spark 实例本身下线
  • 方案 B:重启 Spark 实例任务调度
  • 方案 C:将 cron review 文件名从 *-spark-24h-* 改为 *-auto-24h-*,明确 cron 独立于 Spark 实例

7. 6-26 全日 P0/P1 兑现追踪

7.1 6-25 evening 棒 §7.2 主题页候选兑现情况

# 主题页候选 6-26 兑现状态
1 MCP 安全 CVE 跟踪 ✅ 部分兑现(jay 6-26-1135 #1+#2 NSA + CSA)
2 2026 H1 Agent 安全五大威胁基线 ✅ 加密(tom 6-26 MIRROR + MemStrata + CMA)
3 vLLM vs SGLang 选型 Checklist 2026 ✅ 立项条件具备(4 源汇流)
4 KV cache 优化专题页 ✅ 立项条件具备(5 篇新论文 + VeriCache)
5 AI Agents Stack 2026 三视角汇总 ✅ 兑现(jay 6-26-1335 + 1505 + 1735 整合)
6 2026 H2 移动端 AI 推理新方向 ⚠️ 未深化(jay 6-26-1135 #3-5 后无新条目)
7 企业 agentic RAG 范式 ✅ 部分兑现(flyp 6-26-0951 + jay 6-26-1221 + jay 6-26-1621 CSDN Top 3)

7.2 6-26 evening 棒新增主题页候选(待 6-27 立项)

  1. Vector DB 2026 选型 + Benchmark + CVE 跟踪(🔥 紧急,pgvector CVE 7 天内)
  2. RAG 范式迁移 2026(4 子主题:传统 RAG / 范式迁移 / Agentic RAG / 时序 RAG)
  3. 2026 H2 K8s AI 基础设施完整图谱(7 项并列 + 选型矩阵)
  4. OWASP Top 10 Agents 2026 + MCP 安全三层防御(OWASP ASI + NSA + CSA + arXiv 2606.25189 + Semantic Firewall)
  5. AI Coding 反噬 GitHub 2026 案例(jay 6-26-2105 + 1455 联合)
  6. GitHub Trending Coding-Agent 周增长排行 2026 H1(ossinsight.io 实时排行)
  7. MLSys 2026 Oral 设计空间 + Red Hat 1:3~1:5 prefill/decode(Meta 6 维 + Red Hat 比例)

7.3 主题页总数(6-25 evening 7 + 6-26 evening 7 = 14 项候选)

  • 已立项:2 项(MCP 安全 + AI Agents Stack 2026)
  • 立项条件具备:5 项(推理引擎选型 / Vector DB / RAG 范式迁移 / K8s AI 基础设施 / KV cache v2)
  • 待立项:7 项(OWASP+三层防御 / GitHub 可靠性 / Coding-Agent 周排行 / MLSys 设计空间 / 移动端 AI 推理 / 企业 agentic RAG / Agent 安全五大威胁基线)

8. 6-27 morning 棒预期任务建议

8.1 给各实例的下一步

  • jay(继续主导,建议降低频率):
  • 6-27 早棒 建议休息或做 1-2 份主题页精读(如推理引擎选型 v2 主题页 / Vector DB 主题页)
  • 6-27 晚棒 恢复日常节奏(晚间 1-2 份)
  • 任务分配:主题页深度整合而非新搜索
  • tom(保持 arXiv radar 节奏):
  • 6-27 早 + 晚各 1 份 radar
  • 6-27 建议聚焦 RAG 投毒 / Memory Poisoning / 联邦 RAG(与 6-26 MemStrata + MIRROR 连续)
  • Substack 数量继续维持 1-2 条(6-26 已破冰 micheallanham CMA)
  • flyP(保持轻量精读节奏):
  • 6-27 建议做 From Agent Traces to Trust(arXiv 2606.04990v3,今日 15:51 副线索)—— "agent 评测可信度"主题收尾
  • 或做 MATP-BENCH(6-25 morning 主题:multimodal theorem proving)作为 multimodal 主题延续
  • Spark / cron review
  • 持续产出 24h review + digest
  • 建议同时产出 1 份 6-26 全日总览
  • Stephen(本实例):
  • 6-27 早棒(08:00-09:00)做本周(6-23 ~ 6-27)weekly digest 启动(Spark 实例空档,Stephen 接管 weekly digest 责任)
  • 6-27 晚棒(22:45)做本周 weekly digest 收口

8.2 主题页立项优先级(建议 6-27 立项 1-2 项)

  1. 🔥 紧急:Vector DB 2026(pgvector CVE 7 天内 + Q1 benchmark + 选型树 v3)
  2. 🔥 立项条件具备:推理引擎选型 2026(vLLM vs SGLang 4 源汇流)
  3. 🟠 高价值:RAG 范式迁移 2026(4 子主题)
  4. 🟡 中价值:2026 H2 K8s AI 基础设施完整图谱

9. 发布前必须人工确认的事项

  1. Spark 实例状态确认(§6)—— 16 天空档是否要介入?
  2. 主题页立项优先级(§7.2 + §8.2)—— 哪 1-2 个先做?Vector DB 紧急(pgvector CVE)
  3. jay 单实例占比 80% 是否需要调整(§4.2 #2)—— 连续 2 天提及,建议调整
  4. MCP 安全 + GitHub 2026 可靠性是否需要 Anan 内部公告(§3.1 + §3.5)—— 所有 agent/MCP + GitHub Copilot 使用团队必读
  5. tom radar 高价值 4 篇是否进入精读队列(§3.7)—— MemStrata + MIRROR + OpenRCA 2.0 + CMA 全部 🔴/🟠

10. 元信息

  • 本棒工具调用:4 次 exec + 9 次 read + 1 次 write(本文件)
  • 本实例草稿目录:/shared/research-kb/inbox/stephen/
  • 已写入:/shared/research-kb/inbox/stephen/2026-06-26-stephen-coordination-check-evening.md
  • 未执行:git commit / git push / gh pr / 写入 review/ 或 published/

Stephen 总协调检查 · 每日 2 次 · 2026-06-26 22:45 Asia/Shanghai