Stephen 总协调检查 · 2026-06-26 晚间
生成时间:2026-06-26 22:45 Asia/Shanghai
实例:Stephen
性质:跨实例协调草稿;不执行 git commit / git push / gh pr;不直接写入 published。
0. 与今日午间协调稿的关系
- 6-26 午间稿路径:
/shared/research-kb/inbox/stephen/2026-06-26-stephen-coordination-check.md(12:45,28KB) - 上棒(6-25 22:45)路径:
/shared/research-kb/inbox/stephen/2026-06-25-stephen-coordination-check-evening.md - 本棒覆盖 6-26 12:45 → 22:45 的新增产出,定位为 6-26 afternoon + evening 收口(明早 6-27 由下一次 cron 接管)。
- 6-26 全日合计新增草稿 15 份:jay 12 份(08:22 / 09:37 / 10:52 / 11:08 / 12:21 / 13:35 / 14:52 / 15:07 / 16:21 / 17:35 / 19:52 / 21:07) / tom 1 份(20:40)/ flyP 2 份(09:51 / 15:51)/ Stephen 1 份(本文件)/ Spark 持续 16 天空档。
- 本棒重点:下午 + 晚间 7 份 jay + 1 份 tom + 1 份 flyP 的跨实例去重、缺口判定、主题页候选。
1. 本次主题
对 2026-06-26 12:45 → 22:45 各实例研究简报做跨实例协调收口,覆盖:
- vLLM vs SGLang 选型框架四源汇流(jay 1050 / 1455 / 1505 / 1735)—— prefix-overlap ratio 作为分水岭指标已稳定;阿里云中文实测(jay 1735)和 H100 NSA+TRT-LLM DSA 基准(jay 1950 R3 / 17:35 #3)补全工程侧;推理引擎选型 2026 主题页立项条件已具备。
- Vector DB 2026 H1 三事件矩阵(jay 1505 + 2105): 1. pgvector CVE-2026-3172(跨 relation 数据泄露,7 天内必须升级 0.8.2) 2. Q1 2026 QPS Benchmark —— pgvectorscale 50M chunks 471 QPS 反超 Qdrant 10×(StreamingDiskANN + Rust + PGRX) 3. Vector DB 选型树收敛 —— 10M 以下 Qdrant 性价比 / 50M+ pgvectorscale / >100M Milvus / 闭域 ACID pgvector
- RAG 范式迁移三条主线成型(jay 2105 + tom 20:40): 1. RAGPerf 端到端基准(arxiv 2603.10765v1,4 工作负载 5 数据集)+ 多模态代码 / 语音 / 文本覆盖 2. EnterpriseRAG-Bench(arxiv 2605.05253)—— BM25 在企业专有词汇场景反超 embedding(32.8% vs 24.8%) 3. SmartVector 时序置信度嵌入(arxiv 2604.20598)—— Top-1 31%→62% / 过期答案率 35%→13.3% / 单次编辑 re-embedding 成本 -77%
- Agentic Search 替代 RAG 新证据(jay 1735)—— Anthropic 2025 已将 vector search 从 Claude Code 移除;agent-as-retriever 模式在内部 eval 上比单 Opus 4 高 90.2%;Claude Code / Cursor / Windsurf / Cline / Sourcegraph Amp 均不再将语料索引到向量库;与 RAGPerf + EnterpriseRAG-Bench 构成 RAG vs Agentic Search 2026 H2 关键选择窗口。
- GitHub 2026 可靠性危机(jay 2105)—— 5 月 9 起服务降级事件、4 月 10 起、commit 量 14 亿/月(超 2025 全年 10 亿)、workflow runs 失败率峰值 42%、PR thread 暴露数据库迁移和旧 integer 限制问题;与 jay 1455 推理引擎 Bug 研究([RE] Resource 中位数 15 天、30% 超 30 天)形成 "AI Coding 反噬开发平台"主轴。
- Cilium eBPF 全景更新(jay 2105)—— 1.19.5 / 1.18.11 / 1.17.17 三分支活跃维护;Odigos 零代码追踪 / Falco 运行时安全 / Kepler 功耗 exporter / LoxiLB 5G/Edge LB;与 jay 1735 RBG + KAI Scheduler + Grove + llm-d 共同构成 2026 H2 K8s AI 基础设施完整图谱。
- tom 20:40 雷达 4 高价值(全部 agent / rag / memory / 安全): 1. MemStrata(arXiv 2026-06-25)—— RAG 陈旧事实误差系统量化,AUROC 0.59 是结构性问题 2. MIRROR(arXiv 2026-06-25)—— 首个 agentic RAG 跨表面红队框架,MCTS + novelty gate 3. OpenRCA 2.0(arXiv 2026-06-25)—— PAVE 协议从根因标签升级到因果过程监督 4. CMA(Substack micheallanham 2026-06)—— 持续演化活状态记忆,89% 场景优于传统 RAG,2.4× 延迟代价
- flyP 15:51 LongShOTBench 短审稿(arXiv 2512.16978v2,MBZUAI,14 作者)—— omni-modal + rubric-level + 105 模型评测,66.64% training-free SOTA;与本周 LongVideoAgent / LongVidSearch / LongVALE 共同构成 长视频评测坐标系。
- CSDN 16:21 大场(jay 1621)—— 20 高价值条目(推理 4 + RAG 4 + Agent 4 + MLOps 4 + Substack 4);Top 3 精读:LLM 推理实战指南(4090 实测 F1=0.89)/ 2025 主流 AI 智能体框架盘点 / 2025 RAG 十大论文(DeepRAG + SafeRAG + HippoRAG 2)。
- MLSys 2026 Oral Meta Llama 部署配置百万级优化(jay 1335)—— 服务近 10 亿月活,H100/H200/MI300X × 张量/流水线/专家/上下文/数据并行 × continuous batching vs prefill-decode disaggregation 设计空间。
- OWASP Top 10 Agents 2026 速查(jay 1335 + 1735)—— Alex Ewerlof "ASI 1-10" + Semantic Firewall + 最小权限原则 + LLM 不直接访问 API/DB。
- The AI Engineer Stack 2026 六层(jay 1335 + 1735)—— LLM / Tooling-SDK / Memory / Protocols / Eval / Guardrails;MCP 已成为标准协议层。
- CNCF Sandbox 三连发(jay 1505)—— llm-d(IBM/Red Hat/Google 联合)/ KAI Scheduler(NVIDIA)/ Grove(NVIDIA 新发布),标志推理框架走向标准化 + 开源治理。
2. 检索范围与本轮输入
2.1 本轮已核对草稿(截至 2026-06-26 22:45 UTC+8)
/shared/research-kb/inbox/jay/(6-26 afternoon + evening 共 7 份,全日合计 12 份,单实例占比 80% ⚠️)
- 2026-06-26-1335-afternoon-research-new-entries-substack-hf-arxiv.md(13:35,10.8KB,MLSys 2026 Oral + Red Hat + OWASP + Stack 2026 + HF Papers)
- MLSys 2026 Oral Meta Llama 部署配置优化(arXiv 2601.20408)—— 服务 10 亿月活,6 维设计空间 + 5 大运营教训
- Red Hat Distributed AI Inference 高级部署模式(2026-06-24)—— prefill/decode 分离 1:3~1:5 / 分层 KV Cache / Speculative Decoding 实测
- OWASP Top 10 Agents 2026 速查(Alex Ewerlof Substack)—— LLM01-10 + ASI01-10 + Semantic Firewall
- The AI Engineer Stack 2026 六层(Substack Paolo Perrone)—— 2024→2026 新增 Execution/Harness + Observability 两层
- HF Daily Papers 6-02 PaddlePaddle / 6-10 JD.com / 6-12 Microsoft(含 MAI-Thinking-1、MAI-Code-1-Flash、Scout)
- 2026-06-26-1455-engineering-filter-vllm-llm-engine-bugs-grab-production.md(14:52,13.5KB,5 高价值 + 5 丢弃)
- vLLM 2026 生产部署完整命令集(SitePoint + Spheron)—— Docker / K8s / FP8 多卡 / OOM 应急 / NCCL P2P
- LLM 推理引擎 Bug 分类研究(arXiv 2506.09713v2)—— 6 症状 + 28 根因 + Fix Effort 数据;[RE] Resource 中位数 15 天 30% 超 30 天
- Grab 多 Agent 6 类生产故障(Bhavishya Pandit Substack 2026-03)—— Excessive context / SQL validation / Log investigation / Tool fragmentation / Pipeline health / RCA writing
- Label Studio RAG 7 大生产故障(基于 arXiv 2401.05856)—— Missing Content / Missing Top Ranked / Not in Context / Not Extracted / Wrong Format / Incorrect Specificity / Incomplete
- Galileo RAG 调试工具对比 2026(Luna-2 + Langfuse + LangSmith + Arize + Whylabs)
- 2026-06-26-1505-evening-briefing-inference-agents-vecdb-kubecon-2026.md(15:07,11.6KB,5 主轴全开)
- vLLM vs SGLang 2026 决策树(60% prefix overlap = 分水岭)—— Spheron + Techsy + YottaLabs 三方汇总
- The AI Engineer Stack 2026 六层(Substack 重审,Cursor 案例)—— 每 90 分钟基于 acceptance rate 重训
- arXiv VeriCache(2605.17613)—— 有损 KV Cache 变无损,验证 + 推测解码跨压缩策略通用
- GitHub Trending Jun 25 —— OpenMontage +3,719 / stablyai/orca / openai/codex / wshobson/agents / block/goose
- CNCF Sandbox 三连发 —— llm-d(IBM/Red Hat/Google)/ KAI Scheduler(NVIDIA)/ Grove(NVIDIA 新)
- Vector DB May 2026 回顾 —— pgvector CVE-2026-3172 紧急 / Milvus 3.0.0-beta zero-copy / Qdrant 1.18 TurboQuant / Pinecone Builder $20/月
- 2026-06-26-csdn-llm-agent-rag-mlops.md(16:21,13.4KB,CSDN 16:21 大场 20 条)
- 推理优化 4 条:Top 1 qq_31142761 LLM 推理加速全攻略;Top 2 weixin_30099989 LLM 推理实战指南 4090 F1=0.89;Top 3 weixin_54908067 推理框架深度对比
- RAG 4 条:Top 5 qq_56999332 五个关键优化;Top 7 和老莫一起学AI DeepRAG/SafeRAG/HippoRAG 2;Top 8 Python编程杰哥 8 架构横向对比
- AI Agent 4 条:Top 9 kjh2007abc 2025 主流 AI 智能体框架盘点;Top 10 爱编程的小辞 五大框架深度解析;Top 11 高级绘画师PP Multi-Agent 架构模式;Top 12 hewenhu_21 Multi-Agent 框架大盘点
- MLOps 4 条:Top 13 霍格沃兹测试开发学社-小明 MLOps 职业蓝海;Top 14 AgentInsight Agent Ops 新概念 R.E.S.T 框架;Top 15 yonggeit LMOps 平台工程;Top 16 小涂Ss 运维工程师转 AI 全攻略
- Substack 4 条:Future AGI LLM 评测 / Jam with AI 2026 Roadmap / Aishwarya Srinivasan LangChain & LangGraph / Aishwarya Naresh Reganti + Kiriti Badam 九层 AI Agent Stack
- 2026-06-26-1735-evening-inference-stack-RBG-K8s-agentic-search-substack.md(17:35,9.2KB,RBG + Agentic Search + 中文实测)
- SGLang v0.5.9 生产部署实操(Spheron)—— 4 调优经验(system prompt 修定 / 对话历史 prefix / chunked prefill 4096 / cache hit rate 监控)
- RoleBasedGroup(RBG)(GitHub sgl-project/rbg v0.7.0)—— K8s 多角色协作推理编排,gang scheduling + Mooncake 集成
- Agentic Search 替代 RAG 新证据(arxiv 2602.23368 Keyword search is all you need + Medium TowardsAI Anthropic 案例)—— 90.2% agent-as-retriever 优势
- DesignGurus Substack 推理工程四大杠杆(Batching / Caching / Routing / Cost Control)
- MultimodalAI Substack 推理引擎选型框架
- 阿里云 SGLang vs vLLM Qwen 实测(H100/H200)—— SGLang TTFT 优 20-50% / TPOT 优 20-40% / 启动快 30%
- ossinsight.io 实时排行:OpenHands 60.6K / opencode 55.6K(+355/周)/ OpenAI codex 44.7K
- 2026-06-26-evening-engineering-filter.md(19:52,7.6KB,Jay 二筛晚间档)
- 保留 A 6 条:R1 SGLang Complete Guide / R2 vLLM vs SGLang 决策框架 / R3 H100 NSA+TRT-LLM DSA 基准(DeepSeek V3.2 3-5× / MRV2 GB200 +56%)/ R4 GitHub Trending Jun 24(anthropics/skills +433 / OpenMontage +3,592 / aws/agent-toolkit-for-aws)/ R5 MS Build 2026 BRK222(gang scheduling / Azure KARS / AKS Claw)/ R6 awesome-ai-agents-2026
- 保留 B / 丢弃:R7 EITT Academy 降级 / R8 Onyx RAG platforms 丢弃 / R9 YouTube 视频形式丢弃
- 2026-06-26-2105-evening-database-backend-cloudnative-ragperf-vecdb-2026.md(21:07,10.5KB,5 大方向 evening 简报)
- Vector DB 2026 Q1 Benchmark(Salt Technologies + Medium + Actian)—— pgvectorscale 28ms 471 QPS 远超 Qdrant / Actian 三大坑(ingestion cliff / 多并发元数据过滤 / tail latency)
- SmartVector 时序置信度感知嵌入(arXiv 2604.20598)—— Top-1 31%→62% / 过期 35%→13.3% / re-embedding 成本 -77%
- RAGPerf 全链路评测框架(arXiv 2603.10765)—— 4 工作负载 5 数据集(Wikipedia 19.3GB 6.41M / Arxiv 48GB 30K / github-code 32GB 11M / People's Speech 35.5GB 0.3M)
- EnterpriseRAG-Bench(arXiv 2605.05253)—— BM25 32.8% 反超 embedding 24.8% 召回
- GitHub 2026 可靠性危机(Windows Forum / May 2026)—— 14 亿 commit/月 / 5 月 9 起服务降级 / 失败率 42%
- Cilium eBPF 全景(1.19.5 / Odigos / Falco / Kepler / LoxiLB / Retna / Pixie)
- System Design Codex Newsletter 延迟优化 4 策略(Caching / CDN / Load Balancing / Async)
jay 6-26 全日 12 份总产出:约 150KB(单实例占比 80%,日均单文件 12.5KB)
/shared/research-kb/inbox/tom/(6-26 afternoon + evening 共 1 份 + 候选 JSON 已存在)
- 2026-06-26-agent-rag-longcontext-radar.md(20:40,3.9KB,evening radar · 4 高价值 + 4 常规 + Substack 1 + CSDN 0)
- 🔴 MemStrata: Temporal Validity in Retrieval Memory(arXiv 2026-06-25)—— AUROC 0.59 是结构性问题;分层时间记忆
- 🔴 MIRROR: Novelty-Constrained Memory-Guided MCTS Red-Teaming for Agentic RAG(arXiv 2026-06-25)—— 多模态攻击面 73-84% 模板重复率
- 🟠 OpenRCA 2.0: From Outcome Labels to Causal Process Supervision(arXiv 2026-06-25)—— PAVE 协议,长上下文 + 多步推理 + 工具调用综合评测
- 🟡 Continuum Memory Architecture(CMA)(Substack micheallanham 2026-06)—— 89% 优于传统 RAG,2.4× 延迟代价,"记忆漂移"风险
- 常规 4:PhysRAG 物理感知 / Agents That Know Too Much 隐私 / EDA 擦写解耦线性注意力 / Adaptive Evaluation of OOB Defenses
- 候选 JSON 2026-06-26-agent-rag-longcontext-candidates.json(20:40,9.9KB)
- Substack 1 条 CMA(与 micheallanham 1 条净增;与 6-26-0840 The AI Engineer 不同作者;本次净增 1)
/shared/research-kb/inbox/flyp/(6-26 afternoon 共 1 份)
- 2026-06-26-afternoon-read-LongShOTBench-omni-modal-longvideo.md(15:51,11.9KB,flyP 6-26 第 2 篇轻量精读 · omni-modal 长视频)
- 精读 arXiv 2512.16978v2 LongShOTBench + LongShOTAgent(MBZUAI 14 作者,2026-06-16 v2 update)
- 7 项全打勾(visual+audio+speech+open-ended+multi-turn+intent-driven+rubrics)—— 其他同台 benchmark 最多 3-4 项
- LongShOTAgent = 66.64% overall training-free SOTA
- 105 模型评测规模
- 8 项主要问题 / 风险:rubric 客观性 / 数据集规模与版权 / harness multiplier / co-design 偏差 / 多模态 specialists 来源 / 与 LongVideoAgent 等定位重叠 / v1→v2 diff / 作者机构集中度
- 副线索:From Agent Traces to Trust(arXiv 2606.04990v3)—— 下次主读候选
- 可信度:中-高(MBZUAI 视频理解老牌团队;rubric 自动打分细节未披露)
- 建议路径:notes/multimodal/long-video-omni-modal-benchmarks.md(新建) + reviews/2026-06-longshotbench-mbzuai.md(短审稿)
- 后续验证 4 项(longshot.cvmbzuai.com leaderboard / rubric 机制 / v1→v2 diff / 与 Agent Traces to Trust 整合)
/shared/research-kb/inbox/spark/(草稿目录 6-26 仍 0 份;cron review 正常)
- 自 2026-06-10 之后,spark 实例仅 1 份历史文件 2026-06-10-agentic-rag-runtime-reliability.md
- 截至 2026-06-26 已持续 16 天空档(比 6-25 evening 上棒 15 天再 +1)
- 但 cron 仍在产出:最近 2 份 review 在 /shared/research-kb/review/(6-26 17:25 / 6-26 11:25)+ 2 份 digest
- 详见 §6 spark 实例状态
/shared/research-kb/review/(Spark cron 最新)
- 2026-06-26-1725-spark-24h-review.md(17:25,7.5KB)—— 输入 18 文件,高价值 Top 5 全部 jay + flyp + stephen;冲突风险含 jay 1505 pgvector CVE-2026-3172 / jay 1455 Grab 6 类故障 / jay 1335 OWASP + Stack 2026 / flyp LongShOTBench leaderboard 待补查
- 2026-06-26-1125-spark-24h-review.md(11:25,7.4KB,本棒已读)—— 输入 18 文件
/shared/research-kb/digests/(Spark cron 最新)
- 2026-06-26-1725-spark-24h-digest.md(17:25,2.9KB,本棒已读)
- 2026-06-26-1125-spark-24h-digest.md(11:25,3.0KB)
2.2 本轮未发起新增外部检索
仅对 6-26 12:45 → 22:45 各实例已产出草稿做协调收口判断;本实例(Stephen)的「研究内容」由其他实例产出提供,本棒不参与 arXiv / Substack / CSDN 直接搜索。
3. 6-26 afternoon + evening 高价值条目(按主轴)
3.1 🔥 vLLM vs SGLang 选型框架四源汇流(jay 1050 + 1455 + 1505 + 1735)
核心结论收敛:
| 来源 | 关键贡献 | 关键数字 |
|---|---|---|
| jay 1050 #1(Spheron/LeetLLM) | 5 问决策树 + H100 benchmark | Llama 3.1 8B SGLang +29% / 70B FP8 差距 <10% |
| jay 1455 #1(SitePoint/Spheron) | 完整生产部署命令 + OOM 应急 | --gpu-memory-utilization 0.90 + --ipc=host 关键 |
| jay 1505 #1(Spheron/Techsy/YottaLabs) | 60% prefix overlap 分水岭决策树 | SGLang TTFT -20-40% / vLLM 3,500 tokens/s |
| jay 1735 #1(Spheron)+ 阿里云实测 | SGLang 4 调优经验 + Qwen 中文实测 | SGLang 启动快 30% / Qwen2.5 TTFT 优 20-50% |
| jay 1950 R3(Spheron H100) | SGLang NSA + TRT-LLM DSA 在 Blackwell | DeepSeek V3.2 +3-5× / MRV2 GB200 +56% |
统一决策框架(精炼): - Prefix overlap > 60%(RAG 文档复用 / 工具定义块 / 系统提示)→ SGLang(RadixAttention 复用共享前缀 KV cache,TTFT 降低 20-40%) - Speculative decoding 为主(低延迟生成 / Eagle3 + MRV2)→ vLLM(EAGLE 集成完善,SGLang 实验性) - 唯一 prompt 高吞吐 / 多 LoRA / 结构化 JSON → 平局 - 国产 Qwen 部署 / 中文场景 / 国内云 → SGLang 略优(阿里云实测)
建议:推理引擎选型 2026 主题页 已具备立项条件(4 源 + 中文实测 + H100 数字 + K8s 部署命令 + 调试工具)。可直接进入 published。
3.2 🔥 Vector DB 2026 H1 三事件矩阵(jay 1505 + 2105)
事件 1:pgvector CVE-2026-3172(紧急,🔴 7 天内必须升级) - 风险:跨 PostgreSQL relation 数据泄露 - 修复:升级到 0.8.2 - 来源:jay 1505 + RankSquire "Vector Database News May 2026"
事件 2:Vector DB 2026 Q1 Benchmark 颠覆性数据 - pgvectorscale(50M chunks):28ms p99,471 QPS@95% recall,反超 Qdrant 10× - Qdrant(10M chunks):30-40ms p99,100+ QPS(性价比最优) - Milvus(>100M):40-60ms p99,90+ QPS(超大规模首选) - Pinecone:50-100ms p99,80+ QPS($5000+/月) - 来源:jay 2105 #1(Salt Technologies + Medium + Actian)
事件 3:选型树收敛 - 10M 以下 → Qdrant 性价比 - 10M~50M → pgvector + HNSW 零运维 - 50M~100M → pgvectorscale 471 QPS 10× 反超 - >100M → Milvus zero-copy / Pinecone Serverless - 闭域 ACID + 向量 → pgvector PostgreSQL 单一栈
Actian 三大坑(Vector DB 评估常被忽略): 1. Ingestion cliff —— 72 小时连续写入后查询质量断崖 2. 多并发元数据过滤 —— 100+ 并发 P99 跳 10×(CPU 等磁盘 IO) 3. Tail latency 才是关键 —— p99 100ms 中位 10ms 体感比 p99 50ms 中位 20ms 更慢
建议:Vector DB 主题页紧急追加 pgvector CVE-2026-3172 升级提示(与 jay 6-25 pgvector 0.8.2 收尾合并)+ Q1 2026 QPS Benchmark + 选型树 v3。
3.3 🔥 RAG 范式迁移 2026 三主线(jay 2105 + tom 20:40 + jay 1735)
主线 1:RAGPerf 全链路端到端基准(arXiv 2603.10765v1) - 4 工作负载:Wikipedia 19.3GB 6.41M / Arxiv 48GB 30K / github-code 32GB 11M / People's Speech 35.5GB 0.3M - 索引方法:HNSW / IVF / SQ/PQ - github-code 数据集对代码检索 RAG 直接有用
主线 2:EnterpriseRAG-Bench 企业内部知识库发现(arXiv 2605.05253) - BM25 32.8% 正确率 vs embedding 24.8% 召回率(企业专有词汇 + 内部缩写 + 工单 CRM 场景) - 工程结论:企业 RAG 不要盲目上向量检索,先测 BM25 - 混合检索(BM25 + vector + bash agent 池化)是企业场景的成熟解法
主线 3:SmartVector 时序置信度嵌入(arXiv 2604.20598) - 关键数据:Top-1 31%→62.0% / 过期答案率 35%→13.3% / ECE 0.470→0.244 / 单次编辑 re-embedding 成本 -77% - 神经科学启发:遗忘曲线 + GNN 置信度传播 + 不确定性感知检索 - 实施路径:从时间戳嵌入开始 → 加遗忘曲线 → 成熟后加 GNN 传播
与 Agentic Search 替代 RAG 论点互补(jay 1735): - 通用 Agent(Claude Code 类)放弃向量索引 → 走向 just-in-time loading - 垂直领域知识库(RAG for CS papers)继续向量索引 + 改进时序 - 关键差异:开放域 agentic 任务需要动态检索 / 闭域知识库场景 RAG 仍有结构化优势
建议:RAG 主题页重组为 4 子主题:传统 RAG 优化 / RAG 范式迁移 / Agentic RAG / 时序 RAG(SmartVector + MemStrata 双线)。
3.4 🔥 Agentic Search 替代 RAG 新证据(jay 1735)
3 个独立来源: 1. arXiv 2602.23368 Keyword search is all you need —— keyword search + agentic tool use 达到 RAG 级别性能 2. Medium TowardsAI AI Agents Don't Need Vector Search —— Anthropic 2025 已移除 Claude Code vector search;agent-as-retriever 比单 Opus 4 高 90.2% 3. TowardsAI Building a Modern RAG Agent 2026 —— ArXiv RAG Project(50 万 CS 论文 Qwen3-embedding-8b + Qdrant)
Just-in-time loading 范式: - 按需加载 vs 预先索引 - 多 Agent 研究系统中 agent-as-retriever 模式成为新默认 - Claude Code / Cursor / Windsurf / Cline / Sourcegraph Amp 均不再将语料索引到向量库
与现有 RAG 主题关系: - 与 jay 6-25 DeepNest "RAG → Agent-Reasoning" 路径一致 - 与 tom 6-26 CMA(持续演化活状态)形成"动态检索" vs "持续记忆"两条路径 - 与 jay 6-25 qcx23 "RAG 正在被重写"形成跨实例呼应
建议:RAG 主题页新增「Agentic Search 替代 RAG 2026」子主题;归类为开放域 Agent 检索方案(与闭域 RAG 平行)。
3.5 🟠 GitHub 2026 可靠性危机(jay 2105 + jay 1455)
GitHub 2026 May 数据(jay 2105 #5): - 月 commit 量 14 亿(超 2025 全年 10 亿) - 5 月 9 起服务降级事件、4 月 10 起 - GitHub 自报 workflow runs 失败率峰值 42% - Azure 承载 40% monolith 流量 + 30% Git 流量 - 仓库复制已达 99% - 官方状态视图与第三方实时视图持续分歧
与推理引擎 Bug 研究联合(jay 1455 #2): - [RE] Resource 类 Bug 中位数 15 天,30% 超 30 天 - [RB] Configuration 类 30% Very Hard,中位数 8.8 天 - 涉及 CUDA 内存、GPU 利用率等硬件层面,调试周期长
核心矛盾: - AI Coding 反噬开发平台 - 营销周期快于基础设施周期 - Microsoft/GitHub 正在将客户推向 AI 辅助开发,而非等一个安静两年的可靠性重建
建议:Backend 主题页新增「AI Coding 反噬 GitHub 2026 案例」研究;与 jay 1455 推理引擎 Bug 研究合并为 "AI 时代可靠性危机"专题。
3.6 🟠 Cilium eBPF 全景 2026(jay 2105 + 关联 jay 1735 RBG)
Cilium 2026-06-16 当前版本(jay 2105 #6): - v1.19.5(活跃) - v1.18.11 - v1.17.17
eBPF 云原生应用全景: - 网络 + 安全 + 可观测性:Cilium / Calico eBPF dataplane / LoxiLB(5G/Edge LB) - 可观测性(零侵入):Odigos(eBPF 自动插桩)/ Retna / Pixie / Kepler(功耗 exporter) - 追踪与安全:Inspektor Gadget / Falco(运行时安全)/ bcc
与 K8s AI 基础设施联合(jay 1505 #5 + 1735 #2 + 1950 R5): - llm-d(IBM/Red Hat/Google,Sandbox)—— 分布式 LLM 推理框架 - KAI Scheduler(NVIDIA,Sandbox)—— GPU 集群 AI 负载编排 - Grove(NVIDIA,新发布)—— Kubernetes API for AI 负载编排 - RBG(sgl-project,v0.7.0 stable)—— 多角色协作 LLM 推理编排 - Azure KARS / AKS Claw(MS Build 2026)—— secure sandbox + workload identity - 行业背景:82% 组织已在 K8s 上运行 AI 工作负载,但只有 7% 每天在生产部署
建议:Cloud-Native 主题页整合为 "2026 H2 K8s AI 基础设施完整图谱":Cilium eBPF / llm-d / KAI Scheduler / Grove / RBG / KARS / Claw 七项并列 + 选型矩阵。
3.7 🟠 tom 20:40 雷达 4 高价值(全部 agent / rag / memory / 安全)
| # | 论文 / 来源 | 核心 | 评级 |
|---|---|---|---|
| 1 | MemStrata(arXiv 2026-06-25) | AUROC 0.59 是结构性问题;分层时间记忆 | 🔴 |
| 2 | MIRROR(arXiv 2026-06-25) | 首个 agentic RAG 跨表面红队框架;MCTS + novelty gate | 🔴 |
| 3 | OpenRCA 2.0(arXiv 2026-06-25) | PAVE 协议从根因标签升级到因果过程监督 | 🟠 |
| 4 | CMA(Substack micheallanham 2026-06) | 89% 场景优于传统 RAG,2.4× 延迟代价 | 🟡 |
与现有主题的归属: - MemStrata + SmartVector → 时序 RAG / 记忆层重构主题 - MIRROR + TRACE(tom 6-25) + MIRROR-style red-team → Agentic RAG 安全主题 - OpenRCA 2.0 + RAGPerf + EnterpriseRAG-Bench → Agent 评测主题 - CMA + Are We Ready For An Agent-Native Memory(jay 6-25)+ MemStrata → Agent 记忆架构主题
常规 4 候选(保留追踪): - PhysRAG 物理感知视频生成(垂直领域,参考价值一般) - Agents That Know Too Much 隐私全景调研(与 SmartVector 隐私方向呼应) - EDA 擦写解耦线性注意力(底层建模贡献) - Adaptive Evaluation of OOB Defenses(Biba 模型统一)
Substack 1 条(micheallanham CMA)—— 净增 1 条;与 6-26-0840 The AI Engineer 重复 0 条(不同作者);与 jay 6-26 各 Substack 0 重复。
3.8 🟡 flyP LongShOTBench 短审稿(flyp 15:51)
详见 §2.1 flyp 单文件精读。8 项风险 / 4 项后续验证动作已完整列出,可作为 长视频评测坐标系主题页入口。
与本周其他稿的关系: - vs LongVideoAgent(flyp 6-12 精读稿)—— multi-agent + RL training vs training-free + search-refine-verify - vs LongVidSearch / Overthinking(flyp 6-23 精读稿)—— 同一焦虑(结构上存在 over-refine 隐患) - vs WeaveBench / Agent-as-a-Judge / benchjack(本周 agent 可信度三条线)—— rubric-level 与"评测可信度"主题呼应
建议路径:
- notes/multimodal/long-video-omni-modal-benchmarks.md(新建)—— 把本周看过的 LongShOTBench / LongVideoAgent / LongVALE / VideoOdyssey / Video-MME 排一张统一的"长视频评测坐标系表"
- reviews/2026-06-longshotbench-mbzuai.md(短审稿)
3.9 🟡 MLSys 2026 Oral Meta Llama 部署配置优化(jay 1335)
Meta "Optimizing Deployment Configurations for LLM Inference"(arXiv 2601.20408,MLsys 2026 Oral) - 来源:https://mlsys.org/virtual/2026/oral/3780 - 可信度:⭐⭐⭐⭐⭐(Oral 论文 + Meta 服务近 10 亿月活生产数据)
6 维设计空间:H100/H200/MI300X × 张量/流水线/专家/上下文/数据并行 × continuous batching vs prefill-decode disaggregation
5 大运营教训: 1. 并行策略的相位特异性(tensor parallelism prefill 收益高 / decode 受 KV cache 限制) 2. MoE 架构的调度影响(专家并行使单请求跨多 GPU,all-to-all 通信成为瓶颈) 3. 硬件异构性机会(H100 vs H200 在相同功耗下性能曲线不同) 4. 平台扩展行为(单节点 → 多节点扩展时,带宽和通信开销非线性增长) 5. SLO 驱动的配置选择(延迟敏感型 → continuous batching + 小 batch;吞吐敏感型 → 大 batch + 长队列)
与 jay 1455 Red Hat Distributed AI Inference 联合(jay 1335 #2): - prefill:decode worker 配比 1:3 ~ 1:5(不同模型和量化下相当稳定) - 投机解码收益在 continuous batching 场景下会降低(需具体 workload 实测) - 分层 KV Cache:GPU HBM → CPU DRAM → NVMe SSD
建议:推理引擎选型主题页新增「设计空间与运营经验」子节,含 Meta 6 维 + Red Hat 1:3~1:5 比例。
3.10 🟡 OWASP Top 10 Agents 2026 速查(jay 1335 + 1735)
来源:Alex Ewerlof "OWASP Top 10 Agents & AI Vulnerabilities (2026 Cheat Sheet)" —— https://open.substack.com/pub/alexewerlof/p/owasp-top-10-ai-llm-agents
关键概念: - Agent = LLM + while loop + API 访问 - Agent 核心风险来自"循环执行 + 工具访问 + 降低监督"的组合 - LLM01-10 + ASI01-10 完整对照
两条主线的风险差异: - LLM 漏洞:prompt injection / 数据泄露 / 训练数据投毒 / 过度依赖 - Agent 漏洞(ASI):工具权限泛化 / 无意资产暴露 / 循环累积风险 / agent-to-agent 信任问题
缓解措施: - Semantic Firewall —— 隔离的、高度约束的 secondary model 对 agent I/O 安全评估 - 最小权限原则 —— 工具只授予完成当前任务所需的最小权限集 - LLM 不直接访问 API/DB —— 通过受控的 CLI abstraction layer
与现有主题的归属: - 与 jay 6-26-1135 NSA + CSA MCP 安全指南合并为「Agent 安全三层防御」(OS 层 enforcement / Framework guardrails / 生态级 audit) - 与 tom 6-26 MIRROR 跨表面红队框架互补:OWASP 偏规则 / MIRROR 偏自动攻击 - 与 jay 6-26-1455 Grab 6 类生产故障交叉:OWASP ASI 偏架构 / Grab 偏具体故障
3.11 🟢 The AI Engineer Stack 2026 六层(jay 1335 + 1735)
作者:Paolo Perrone,The AI Engineer Substack - 链接:https://theaiengineer.substack.com/p/the-ai-agents-stack-2026-edition - 2026-03-06 发布 - 可信度:⭐⭐⭐⭐⭐
六层架构(2026 版): 1. LLM(基础模型) 2. Tooling / SDK(LangGraph / OpenAI SDK / Anthropic Agent SDK) 3. Memory(context window 管理、session persistence、vector store) 4. Protocols(MCP / A2A / 工具调用协议) 5. Eval(acceptance-rate model、continuous eval) 6. Guardrails(sandbox、权限控制、安全边界)
2024 → 2026 关键演进: - 新增 Execution/Harness 层 - 新增 Observability 层 - Memory 层从"简单 KV store"扩展到"结构化 session + 向量检索 + 外部 DB" - MCP 在 2025-12 捐给 Agentic AI Foundation
Cursor 案例:每 90 分钟基于 acceptance rate 重训 acceptance-rate model
与现有主题的归属: - 与 jay 6-25-1633 The Nuanced Perspective 九层架构对比:6 层 vs 9 层(合并 Eval+Observability=6 / 拆分 Runtimes+Coding Harnesses+Observability=9) - 与 jay 6-26-1050 awesome-harness-engineering整合:六层是诊断 agent 项目复杂度的框架,问题在哪一层比选什么工具更重要
3.12 🟢 阿里云 SGLang vs vLLM Qwen 中文实测(jay 1735)
来源:阿里云函数计算性能测试与评估 - 链接:https://help.aliyun.com/zh/cap/user-guide/performance-comparison-of-deploying-qwen-models-using-sglang-and-vllm - H100/H200 规格
关键数据:
| 模型 | 指标 | SGLang 优势 |
|---|---|---|
| Qwen2.5-1.5B | TTFT | SGLang 优 20-50% |
| Qwen2.5-1.5B | TPOT | SGLang 优 20-40% |
| Qwen-QWQ-32B-AWQ | 双卡并发 ≤ 5 | ~50 tokens/s |
| Qwen-QWQ-32B | 双卡并发 ≤ 5 | ~20 tokens/s(Ada 单卡 OOM) |
关键发现: - SGLang 启动速度比 vLLM 快约 30% - 多卡 TP 时,模型越大性能收益越明显(20%~50%) - Qwen-QWQ-32B 单卡 Ada 系列 OOM,需 H100/H200 - 显存利用率均接近 100%
建议:推理引擎选型主题页新增「国产 Qwen 部署」子节,含阿里云官方实测数据 + 中文场景选型建议。
3.13 🟢 GitHub Trending 17:35 AI Agent 主导(jay 1505 + jay 1950 R4)
当日新增 / 持续高增长:
| 项目 | Stars 增量 | 类型 | 亮点 |
|---|---|---|---|
| calesthio/OpenMontage | +3,719 | Agentic Video Production | 12 pipeline + 52 tools + 500+ skills |
| stablyai/orca | +331 | Agent Dev Environment | 桌面/移动端并行 coding agent fleet |
| openai/codex | +349 | Coding Agent | OpenAI 轻量 terminal coding agent |
| wshobson/agents | +50 | Multi-harness Plugin Marketplace | Claude Code / Codex / Cursor / Windsurf |
| block/goose | +166 | Coding Agent | Block 开源 |
| anthropics/skills | +433 | Anthropic 官方 Agent Skills 仓库 | 重要信号 |
| aws/agent-toolkit-for-aws | — | AWS 官方 MCP + skills + plugins | 云厂商进入 |
| apple/container | 43.2K +1,351 | Apple Silicon Mac Linux 容器 | Swift,对 AI 工程团队有直接价值 |
| opendatalab/MinerU | — | PDF/Office → LLM-ready markdown | 与 RAG Pipeline 直接相关 |
| google-labs-code/design.md | 19.3K +1,475 | DESIGN.md 让 coding agent 持久化理解视觉设计 | 新 |
ossinsight.io 实时排行(2026-06-26 附近): - OpenHands: 60.6K stars(+118/wk) - MetaGPT: 59.7K stars(+19/wk) - opencode: 55.6K stars(+355/wk,增长迅猛) - microsoft/AutoGen: 48.3K stars(+30/wk) - openai/codex: 44.7K stars(+221/wk)
建议:Coding-Agent 主题页新增「2026 H1 周增长排行」子节,含 ossinsight.io 数据 + 趋势观察。
3.14 🟢 CSDN 16:21 大场 Top 5 精读(jay 1621)
| 优先级 | 条目 | 来源 | 核心 |
|---|---|---|---|
| 🔴 Top 1 | LLM 推理实战指南 | weixin_30099989 |
4090 实测 F1=0.89 / kv_cache_dtype float16→bfloat16 显存 -18% / TP=2 + PP=1 吞吐 ×2.3 / RoPE dynamic factor 2.0 128K 12.4s→3.2s |
| 🔴 Top 2 | 2025 主流 AI 智能体框架盘点 | kjh2007abc |
LangGraph / CrewAI / Semantic Kernel / AutoGen / Dify / MetaGPT / OmAgent 横向对比 |
| 🔴 Top 3 | 2025 RAG 十大论文 | 和老莫一起学AI |
DeepRAG / SafeRAG / HippoRAG 2 / MEMERAG / RetroLM / RankCoT |
| 🟡 Top 4 | Agent Ops 新概念 | AgentInsight mcp.csdn.net |
R.E.S.T 框架(Reliability / Efficiency / Security / Traceability)+ AgentInsight 国内首个平台 |
| 🟡 Top 5 | Multi-Agent 系统应用场景与架构模式 | 高级绘画师PP modelengine |
Agents as Tools / Swarm / Graph / Workflow 四种模式 |
Substack 16:21 大场 4 条: - Future AGI LLM Evaluation 2026 / Jam with AI 2026 Roadmap / Aishwarya Srinivasan LangChain & LangGraph / Aishwarya Naresh Reganti + Kiriti Badam 九层 AI Agent Stack
CSDN 中等价值条目:
- 推理优化:qq_31142761 推理加速全攻略 / weixin_54908067 推理框架深度对比
- RAG:qq_56999332 五个关键优化 / Python编程杰哥 8 架构横向对比
- Agent:爱编程的小辞 五大框架深度解析 / hewenhu_21 Multi-Agent 框架大盘点
- MLOps:霍格沃兹测试开发学社-小明 职业蓝海 / yonggeit LMOps 平台工程 / 小涂Ss 转型全攻略
3.15 🟢 CNCF Sandbox 三连发 + 阿里云 SGLang 中文实测
详见 §3.1(推理引擎)+ §3.6(云原生)的整合;CSDN Substack 详见 §3.14。
3.16 🟢 分布式系统延迟优化 4 策略(jay 2105 #7)
System Design Codex Newsletter 4 策略: 1. Caching —— 高速内存避免重复 DB 查询 2. CDN —— 静态资产和地理分布内容全球边缘加速 3. Load Balancing —— Round Robin / Least Connections / IP Hash 4. Async Processing —— 长任务后台执行
核心观点:延迟是新的宕机。高延迟对用户体验的伤害不亚于完全不可用。
建议:作为 SRE / 后端团队内部培训材料参考;与 jay 6-25 evening Kafka / Pravega 等数据流方案整合。
3.17 🟢 arXiv VeriCache 有损 KV Cache 变无损(jay 1505 #3)
arXiv 2605.17613 VeriCache = 有损 KV Cache + 在线验证 + 推测解码 - 跨压缩策略(token dropping、quantization)通用 - 当 KV cache 某部分被验证为不可靠时,通过推测解码恢复精度
与 jay 6-26-1135 KV cache 六月新论文集群联合归档: - Unified KV Pooling (2606.14779) / TTKV (2604.19769) / Recency-Frequency Adaptive (2606.21238) / SwiftCache (2606.16135) / VeriCache (2605.17613) = KV cache 优化 5 篇专题
建议:与 jay 6-25 21:07 arXiv 2604.05012 KV Cache 三框架对比 + jay 6-26-1135 KV cache 集群 + jay 6-26-1505 VeriCache 联合 → 形成 KV cache 优化专题页 v2(5 篇新论文 + 综述 + 调度 + 工程方案)。
4. 跨实例冲突 / 重复 / 待确认
4.1 已识别冲突
-
The AI Engineer Stack 2026 跨实例独立抓取 - jay 6-26-1335(完整六层)+ jay 6-26-1505(Cursor 案例)+ jay 6-26-1735(多视角汇总) - tom 6-26-0840(1 条线索) - 评级一致:⭐⭐⭐⭐⭐ - 建议:合并为单一精读条目
notes/agent/ai-agents-stack-2026.md,3 份 jay 草稿都作为来源;tom 草稿作为补充 -
OWASP Top 10 Agents 2026 跨实例抓取 - jay 6-26-0935(Substack 完整收录)+ jay 6-26-1335(速查清单)+ jay 6-26-1735(速查摘要) - 评级一致:⭐⭐⭐⭐ - 建议:合并为单一精读条目
notes/security/owasp-top-10-agents-2026.md -
vLLM vs SGLang 选型框架跨实例 4 源汇流 - jay 6-26-1050 / 1455 / 1505 / 1735(4 源汇总) - 评级一致:🔥 主题页立项 - 建议:合并为单一主题页
notes/llm-inference/vllm-vs-sglang-2026.md,4 源 + 中文实测 + H100 数字 + K8s 命令 -
Vector DB 选型 / Benchmark 跨实例多源 - jay 6-26-1505(May 2026 roundup)+ jay 6-26-2105(Q1 2026 QPS benchmark + pgvector CVE) - jay 6-25-1507(pgvectorscale 471 QPS + OpenSearch 3.0 GPU)+ jay 6-25-1735(Medium Top 15 选型树) - 建议:合并为单一主题页
notes/database/vector-db-2026.md,含 CVE 紧急升级 + QPS benchmark + 选型树 v3 + 工程方案 -
RAG 范式迁移跨实例多源 - jay 6-26-2105(RAGPerf + EnterpriseRAG-Bench + SmartVector) - tom 6-26-2040(MemStrata + CMA) - jay 6-26-1735(Agentic Search 替代 RAG) - jay 6-25-1335(Are We Ready For An Agent-Native Memory)+ jay 6-25-1633(DeepNest RAG → Agent-Reasoning)+ jay 6-25-1633(qcx23 RAG 正在被重写) - 建议:合并为 RAG 主题页 v2
notes/rag/paradigm-migration-2026.md,4 子主题(传统 RAG / 范式迁移 / Agentic RAG / 时序 RAG) -
Cilium eBPF + K8s AI 基础设施多源 - jay 6-26-2105(Cilium 1.19.5 + eBPF 全景) - jay 6-26-1735(RBG + Mooncake) - jay 6-26-1505(llm-d + KAI Scheduler + Grove) - jay 6-26-1950 R5(MS Build 2026 BRK222 / Azure KARS / AKS Claw) - 建议:合并为 Cloud-Native 主题页 v2
notes/cloud-native/k8s-ai-infra-2026.md,7 项并列 + 选型矩阵
4.2 ⚠️ 待 Anan 人工确认
- Spark 实例持续空档 16 天(自 2026-06-10 之后草稿目录无新文件;cron review 正常产出)
- spark cron review 最近 2 份(6-26 17:25 / 6-26 11:25)持续产出且质量稳定
- 判断:spark 实例本身可能未启动(仅 cron 通道活跃),或 cron 误用
*-spark-24h-*文件名误导 - 建议(连续 6 次提及): a) 确认 Spark 实例是否需要重启; b) 或将 cron 产出文件名从*-spark-24h-*改为*-auto-24h-*避免误解; c) 或将 cron review/digest 迁入 Spark 实例的真正产出位置 - jay 单实例占比 80%(12/15 份):是否合理?其他实例(tom / flyp / spark)总产出偏低 - 建议(连续 2 次提及):观察 1-2 天;若持续 jay 主导,可考虑调整任务分配或降低 jay 频率
- flyP 6-26 产出 2 篇质量稳定(AgenticRAG 09:51 + LongShOTBench 15:51)—— 节奏合理,但与上午 AgenticRAG 主题衔接 - 建议:下次 flyP 任务可指定 multimodal / video / agent benchmark 主题(与今日 LongShOTBench 一致)
- GitHub 2026 可靠性危机是否需要 Anan 内部公告(与上午 MCP 安全同等级)—— 所有使用 GitHub Copilot 的团队需知
4.3 CSDN 中等价值条目核验
- jay 6-26-1621 #14 Agent Ops R.E.S.T 框架(mcp.csdn.net/AgentInsight)—— 新概念,需核验 AgentInsight 平台官方文档
- jay 6-26-1621 #2
weixin_30099989LLM 推理实战指南(4090 F1=0.89)—— 微信公众号全文,需核验数据可复现性 - jay 6-26-1621 #11
高级绘画师PPMulti-Agent 架构模式(modelengine.csdn.net)—— 需核验医疗辅助诊断案例图 - jay 6-26-1621 #16
小涂Ss运维工程师转 AI 全攻略 —— DeepSpeed 命令 + KServe+Istio + Prometheus 定制监控,需核验命令版本
4.4 arXiv 论文待补查
- MemStrata(tom 6-26 #1)—— 论文完整 ID / 摘要 / 数据集细节,待 Tom 或 flyP 下次精读
- MIRROR(tom 6-26 #2)—— 论文完整 ID / novelty constraint 机制,待补查
- OpenRCA 2.0(tom 6-26 #3)—— PAVE 协议细节 + 因果标注成本,待补查
- SmartVector(jay 6-26-2105 #2)—— GNN 传播具体架构 / 遗忘曲线参数,待补查
- EnterpriseRAG-Bench(jay 6-26-2105 #4)—— 3 种检索方式实验设置 / 数据集规模,待补查
- RAGPerf(jay 6-26-2105 #3)—— github-code 数据集对代码 RAG 的具体评测,待补查
- VeriCache(jay 6-26-1505 #3)—— 与 SGLang RadixAttention 集成可能性,待补查
5. 分类覆盖判定(6-26 全日截至 22:45)
| 分类 | 今日覆盖 | 主要来源 | 评级 |
|---|---|---|---|
| agent | ✅ 极强 | jay 12× / tom 1× / flyp 2× | 充分 |
| rag | ✅ 极强 | jay 10× / tom 1× / flyp 1× | 充分 |
| multimodal | ✅ 强 | jay 1221/2105 / flyp 15:51 LongShOTBench | 充分 |
| systems | ✅ 极强 | jay 6-26 1050/1135/1455/1505/1735/2105 KV cache + 推理 + Cilium | 充分 |
| engineering | ✅ 极强 | jay 4× CSDN / 1050/1455 工程筛选 / 1950 R5 / 2105 | 充分 |
| csdn | ✅ 极强 | jay 0820/1221/1621/1735 CSDN | 充分 |
| database | ✅ 极强 | jay 6-25/6-26 pgvector / Qdrant / Milvus / OpenSearch / Vector DB 选型 | 充分 |
| cloud-native | ✅ 强 | jay 2105 Cilium / 1735 RBG / 1505 llm-d+KAI+Grove / 1950 R5 BRK222 | 充分 |
| security / risk | ✅ 极强 | jay 6-26-1135 MCP NSA+CSA / 1455 Grab 6 类 / 1335/1735 OWASP / 2105 GitHub 可靠性 + pgvector CVE | 充分 |
| substack | ✅ 强 | jay 6-26 4 Substack + tom 6-26 1 Substack(净增约 5-6 条) | 充分 |
| memory | ✅ 强 | jay 6-25 Are We Ready For An Agent-Native Memory / 6-26-2105 SmartVector / tom 6-26 MemStrata + CMA | 充分 |
| coding-agent | ✅ 强 | jay 6-26-0935 Moon Bot / 6-26-1505/1735/1950 OpenMontage / OpenHands / opencode / block/goose / anthropics/skills | 充分 |
| harness-loop | ✅ 强 | jay 6-26-1050 arXiv 2606.25189 OS-Level Policy + 6-26-1335 OWASP + 6-26-1735 Stack 2026 | 充分 |
| llmops | ✅ 中 | jay 6-26-0935 Backend.ai offloading / 1621 LMOps 平台工程 | 充分 |
| ai-native | ⚠️ 中 | jay 6-25 iThome 拐点 / 6-26-2105 GitHub 可靠性 | 充分 |
| mlops | ✅ 强 | jay 6-26-1050 Langfuse v2 / 1621 Agent Ops R.E.S.T | 充分 |
| MLSys 2026 Oral | ✅ 强 | jay 6-26-1335 Meta Llama 部署配置 / 6-26-1505 vLLM NSA+TRT-LLM DSA | 充分 |
| GitHub 可靠性 | ✅ 新增 | jay 6-26-2105 #5 GitHub 2026 May | 充分 |
核心判定:全部 17 个分类全覆盖(agent / rag / multimodal / systems / engineering / csdn / database / cloud-native / security-risk / substack / memory / coding-agent / harness-loop / llmops / ai-native / mllops / MLSys / GitHub 可靠性);2 个二级分类补强完成(database 从缺口 → 充分 / cloud-native 从缺口 → 充分)。
今日主题页立项条件(建议合并为 7 项): 1. 推理引擎选型 2026(vLLM vs SGLang 4 源汇流 + 阿里云中文实测 + H100 NSA+TRT-LLM) 2. Vector DB 2026 选型 + Benchmark + CVE 跟踪(pgvector CVE-2026-3172 + Q1 QPS benchmark + 选型树 v3) 3. RAG 范式迁移 2026(RAGPerf + EnterpriseRAG-Bench + SmartVector + MemStrata + Agentic Search + CMA) 4. 2026 H2 K8s AI 基础设施完整图谱(Cilium eBPF + llm-d + KAI Scheduler + Grove + RBG + KARS + Claw) 5. KV cache 优化专题页 v2(June 2026 新论文 5 篇 + 综述 + 调度 + VeriCache) 6. AI Agents Stack 2026 三视角汇总(The AI Engineer 6 层 + The Nuanced Perspective 9 层 + awesome-harness-engineering) 7. OWASP Top 10 Agents 2026 + MCP 安全三层防御(OWASP ASI + NSA MCP + CSA MCP + arXiv 2606.25189 OS-Level Policy + Semantic Firewall)
6. Spark 实例状态(持续关注)
6.1 现状
- 草稿目录
/shared/research-kb/inbox/spark/自 2026-06-10 后无新文件(仅 1 份历史 agentic-rag-runtime-reliability.md) - 截至 2026-06-26 持续 16 天空档(比 6-25 evening 上棒 15 天再 +1 天)
- cron review 通道活跃:最近 2 份 review 在
/shared/research-kb/review/(6-26 17:25 / 6-26 11:25),输入 18 文件,输出分类分布 agent 18 / csdn 18 / engineering 18 / rag 18 / systems 17 / multimodal 13 / risk 11 / database 7
6.2 17:25 review 关键发现
- 高价值 Top 5:tom 6-26 雷达 / jay 6-26-0935 主轴 / flyp 6-26-1551 LongShOTBench / stephen 6-26-1248 协调 / jay 6-26-1221 CSDN 多模态
- 冲突风险清单:
- jay 6-26-1505 pgvector CVE-2026-3172 紧急(7 天内必须升级)
- jay 6-26-1455 Grab 6 类生产故障(多 Agent 上线必读)
- jay 6-26-1335 OWASP + Stack 2026
- flyp 6-26-1551 LongShOTBench leaderboard 待补查
6.3 建议(待 Anan 决定)
- 方案 A:保留 cron review 通道(作为质量守门人),将 Spark 实例本身下线
- 方案 B:重启 Spark 实例任务调度
- 方案 C:将 cron review 文件名从
*-spark-24h-*改为*-auto-24h-*,明确 cron 独立于 Spark 实例
7. 6-26 全日 P0/P1 兑现追踪
7.1 6-25 evening 棒 §7.2 主题页候选兑现情况
| # | 主题页候选 | 6-26 兑现状态 |
|---|---|---|
| 1 | MCP 安全 CVE 跟踪 | ✅ 部分兑现(jay 6-26-1135 #1+#2 NSA + CSA) |
| 2 | 2026 H1 Agent 安全五大威胁基线 | ✅ 加密(tom 6-26 MIRROR + MemStrata + CMA) |
| 3 | vLLM vs SGLang 选型 Checklist 2026 | ✅ 立项条件具备(4 源汇流) |
| 4 | KV cache 优化专题页 | ✅ 立项条件具备(5 篇新论文 + VeriCache) |
| 5 | AI Agents Stack 2026 三视角汇总 | ✅ 兑现(jay 6-26-1335 + 1505 + 1735 整合) |
| 6 | 2026 H2 移动端 AI 推理新方向 | ⚠️ 未深化(jay 6-26-1135 #3-5 后无新条目) |
| 7 | 企业 agentic RAG 范式 | ✅ 部分兑现(flyp 6-26-0951 + jay 6-26-1221 + jay 6-26-1621 CSDN Top 3) |
7.2 6-26 evening 棒新增主题页候选(待 6-27 立项)
- Vector DB 2026 选型 + Benchmark + CVE 跟踪(🔥 紧急,pgvector CVE 7 天内)
- RAG 范式迁移 2026(4 子主题:传统 RAG / 范式迁移 / Agentic RAG / 时序 RAG)
- 2026 H2 K8s AI 基础设施完整图谱(7 项并列 + 选型矩阵)
- OWASP Top 10 Agents 2026 + MCP 安全三层防御(OWASP ASI + NSA + CSA + arXiv 2606.25189 + Semantic Firewall)
- AI Coding 反噬 GitHub 2026 案例(jay 6-26-2105 + 1455 联合)
- GitHub Trending Coding-Agent 周增长排行 2026 H1(ossinsight.io 实时排行)
- MLSys 2026 Oral 设计空间 + Red Hat 1:3~1:5 prefill/decode(Meta 6 维 + Red Hat 比例)
7.3 主题页总数(6-25 evening 7 + 6-26 evening 7 = 14 项候选)
- 已立项:2 项(MCP 安全 + AI Agents Stack 2026)
- 立项条件具备:5 项(推理引擎选型 / Vector DB / RAG 范式迁移 / K8s AI 基础设施 / KV cache v2)
- 待立项:7 项(OWASP+三层防御 / GitHub 可靠性 / Coding-Agent 周排行 / MLSys 设计空间 / 移动端 AI 推理 / 企业 agentic RAG / Agent 安全五大威胁基线)
8. 6-27 morning 棒预期任务建议
8.1 给各实例的下一步
- jay(继续主导,建议降低频率):
- 6-27 早棒 建议休息或做 1-2 份主题页精读(如推理引擎选型 v2 主题页 / Vector DB 主题页)
- 6-27 晚棒 恢复日常节奏(晚间 1-2 份)
- 任务分配:主题页深度整合而非新搜索
- tom(保持 arXiv radar 节奏):
- 6-27 早 + 晚各 1 份 radar
- 6-27 建议聚焦 RAG 投毒 / Memory Poisoning / 联邦 RAG(与 6-26 MemStrata + MIRROR 连续)
- Substack 数量继续维持 1-2 条(6-26 已破冰 micheallanham CMA)
- flyP(保持轻量精读节奏):
- 6-27 建议做 From Agent Traces to Trust(arXiv 2606.04990v3,今日 15:51 副线索)—— "agent 评测可信度"主题收尾
- 或做 MATP-BENCH(6-25 morning 主题:multimodal theorem proving)作为 multimodal 主题延续
- Spark / cron review:
- 持续产出 24h review + digest
- 建议同时产出 1 份 6-26 全日总览
- Stephen(本实例):
- 6-27 早棒(08:00-09:00)做本周(6-23 ~ 6-27)weekly digest 启动(Spark 实例空档,Stephen 接管 weekly digest 责任)
- 6-27 晚棒(22:45)做本周 weekly digest 收口
8.2 主题页立项优先级(建议 6-27 立项 1-2 项)
- 🔥 紧急:Vector DB 2026(pgvector CVE 7 天内 + Q1 benchmark + 选型树 v3)
- 🔥 立项条件具备:推理引擎选型 2026(vLLM vs SGLang 4 源汇流)
- 🟠 高价值:RAG 范式迁移 2026(4 子主题)
- 🟡 中价值:2026 H2 K8s AI 基础设施完整图谱
9. 发布前必须人工确认的事项
- Spark 实例状态确认(§6)—— 16 天空档是否要介入?
- 主题页立项优先级(§7.2 + §8.2)—— 哪 1-2 个先做?Vector DB 紧急(pgvector CVE)
- jay 单实例占比 80% 是否需要调整(§4.2 #2)—— 连续 2 天提及,建议调整
- MCP 安全 + GitHub 2026 可靠性是否需要 Anan 内部公告(§3.1 + §3.5)—— 所有 agent/MCP + GitHub Copilot 使用团队必读
- tom radar 高价值 4 篇是否进入精读队列(§3.7)—— MemStrata + MIRROR + OpenRCA 2.0 + CMA 全部 🔴/🟠
10. 元信息
- 本棒工具调用:4 次 exec + 9 次 read + 1 次 write(本文件)
- 本实例草稿目录:
/shared/research-kb/inbox/stephen/ - 已写入:
/shared/research-kb/inbox/stephen/2026-06-26-stephen-coordination-check-evening.md - 未执行:git commit / git push / gh pr / 写入 review/ 或 published/
Stephen 总协调检查 · 每日 2 次 · 2026-06-26 22:45 Asia/Shanghai