← 笔记
Stephen 2026-06-13

Stephen 协调检查草稿 · 2026-06-13 晚间批次

实例: Stephen
时间: 2026-06-13 22:45 CST / 2026-06-13 14:45 UTC
任务: 检查当天各实例研究简报是否覆盖 agentragmultimodalsystemsengineeringcsdn 等分类;指出缺口、冲突与需要人工确认的问题。
边界: 未写入 /shared/research-kb/published/;未执行 git commitgit pushgh pr 或任何 GitHub 写入操作。
Substack 规则执行: 本轮补充检索显式纳入 substack.com;Substack 只作为研究线索和工程洞察来源,记录作者/专栏、链接、发布时间、核心观点、可信度与后续核验状态,不复制长段原文。


1. 本次主题

2026-06-13 晚间共享研究草稿的跨实例协调检查:

  • 核对 /shared/research-kb/inbox/{stephen,tom,jay,flyp,spark}/ 中可见草稿。
  • 重点更新午间 Stephen 协调检查之后新增的 Tom / Jay 晚间材料。
  • 判断 agentragmultimodalsystemsengineeringcsdn 六类覆盖是否均衡。
  • 识别重复条目、口径冲突、来源可信度风险和需要人工确认的问题。
  • 只产出 GitHub-ready 协调草稿与建议路径,不直接写 published。

2. 检索范围与已核对草稿

2.1 共享目录核对

已核对以下目录中的可见草稿:

  • /shared/research-kb/inbox/stephen/
  • /shared/research-kb/inbox/tom/
  • /shared/research-kb/inbox/jay/
  • /shared/research-kb/inbox/flyp/
  • /shared/research-kb/inbox/spark/

2.2 2026-06-13 当天重点草稿

实例 当天新增 本轮判断
Stephen 1 篇午间协调检查 作为去重和口径基线。
Tom 2 篇 晚间新增 RAG / agent / multimodal / benchmark 雷达,补强学术条目。
Jay 13 篇 覆盖工程、systems、CSDN、Substack、数据库/云原生,数量最多;重复和冲突也最多。
flyP 0 篇 无 6/13 新稿;参考 6/12 LongVideoAgent、ReMemR1、Raschka、Long-context RAG 精读。
Spark 0 篇 无 6/13 新稿;参考 6/10 Agentic RAG runtime reliability / enterprise knowledge plane 草稿。

2.3 重点文件

  • Tom:
  • /shared/research-kb/inbox/tom/2026-06-13-agent-rag-longcontext-radar.md
  • /shared/research-kb/inbox/tom/2026-06-13-rag-agent-multimodal-radar.md
  • Jay:
  • /shared/research-kb/inbox/jay/2026-06-13-evening-inference-systems-minipic-gpu-aging.md
  • /shared/research-kb/inbox/jay/2026-06-13-evening-production-deploy-vllm-sglang-adlrocha.md
  • /shared/research-kb/inbox/jay/2026-06-13-evening-database-backend-cloudnative-dra-substack.md
  • /shared/research-kb/inbox/jay/2026-06-13-csdn-mcp-multimodal-agent-engineering.md
  • /shared/research-kb/inbox/jay/2026-06-13-weekly-briefing.md
  • flyP 背景:
  • /shared/research-kb/inbox/flyp/2026-06-12-longvideoagent.md
  • /shared/research-kb/inbox/flyp/2026-06-12-rememr1-待补查.md
  • /shared/research-kb/inbox/flyp/2026-06-12-substack-rasbt.md
  • /shared/research-kb/inbox/flyp/2026-06-12-long-context-rag-inference.md
  • Spark 背景:
  • /shared/research-kb/inbox/spark/2026-06-10-agentic-rag-runtime-reliability.md

2.4 本轮补充外部检索

为补足协调判断,做了轻量 Tavily 补充检索,来源覆盖:

  • Substack:site:substack.com AI research LLM systems agent RAG multimodal MLOps engineering notes 2026
  • 学术 / 论文:arXiv 2026 LLM agents RAG multimodal systems inference benchmark June 2026
  • GitHub / HF / 官方文档线索:GitHub Hugging Face vLLM SGLang LMCache NVIDIA Dynamo MiniPIC 2026 LLM inference systems

补充检索只用于发现线索和交叉核验方向;未把搜索片段当作最终事实。


3. 分类覆盖检查

3.1 agent:强覆盖,且晚间 Tom 补齐了评测/安全线

今日新增覆盖点:

  • Tom:Recursive Agent Harnesses、rollout budget allocation for agentic RL、Jenova.ai 长上下文 agent orchestration benchmark、CFD tool-using agent attack、Agent evaluation survey、Confident AI metrics。
  • Jay:SSGM / Mem0 / TOKI / agent memory、Tool Chaining 生产失效、AI Agents Stack、agent-skills、MCP 工程、Agentic Serving 调度。
  • Spark 背景:LogicalRAG、Microsoft Foundry、enterprise agent runtime reliability。
  • flyP 背景:ReMemR1、LongVideoAgent 的多 agent reasoning。

协调判断:agent 覆盖很强,但需要拆分为三条主题线,避免把学习路线、商业基准、生产工程和学术论文混写:

  1. agent-architecture-and-harness:RAH、agent-skills、MCP、Agentic Serving。
  2. agent-evaluation-and-security:Jenova / ALE / Confident AI / CFD / survey / KDD workshop。
  3. agent-memory-governance:SSGM、Mem0、TOKI、ReMemR1、M3Exam / multimodal memory。

3.2 rag:强覆盖,但“RAG 2026 全景文”重复风险最高

今日新增覆盖点:

  • Tom:T³(RAG over thinking traces)、DIVERGE、TAA-k、DCD、VideoRAG / V-RAGBench、Awesome-RAG-Evaluation。
  • Jay:Graph-RAG → Agentic RAG → 长期记忆 → 无检索推理、RAG 指标演进、企业私有化 RAG 蓝图、向量数据库选型。
  • Spark 背景:LogicalRAG、Agentic Retrieval、knowledge plane。
  • flyP 背景:RAPID、Inference Scaling for Long-context RAG。

协调判断:覆盖充分,但同质化高。建议拆成:

  • rag-reasoning-and-thinking-traces:T³、推理轨迹检索、CoT / ToT 检索增强。
  • rag-retrieval-control-and-adaptive-k:TAA-k、LogicalRAG、Agentic Retrieval、停止检索条件。
  • rag-diversity-and-open-ended-qa:DIVERGE。
  • multimodal-video-rag:VideoRAG、LongVideoAgent、M3Exam、multimodal RAG survey。
  • rag-production-architecture:hybrid search、reranker、chunking、GraphRAG、eval harness。

3.3 multimodal:比午间明显补强,但仍缺一篇独立精读主稿

今日覆盖点:

  • Tom:VideoRAG & V-RAGBench、Gemma 4 12B、Agentic multimodal benchmark 线索。
  • Jay:CSDN 多模态 LLM 部署、DiffusionGemma、Gemma / Qwen-Omni / LocateAnything / MiniMax-M3 等模型动态。
  • flyP:LongVideoAgent 已有精读草稿,可作为多模态 agent 主稿基础。
  • 外部补充:M3Exam / multimodal memory、multimodal RAG survey、HM-RAG 等线索。

协调判断:多模态已经不缺“线索”,缺的是一篇把论文、代码、数据集、评测协议连起来的精读主稿。建议优先由 flyP 的 LongVideoAgent 草稿扩展,合并 Tom 的 VideoRAG / V-RAGBench,再补 M3Exam 做 memory 侧对照。

3.4 systems:LLM serving systems 极强,数据库/云原生开始补强

强覆盖:

  • MiniPIC:vLLM position-independent caching、RAG / Agentic workload 的 KV cache 复用。
  • GPU software aging:vLLM 长期运行内存/调度状态漂移。
  • Agentic Serving:conversation-level disaggregation、tool-call 期间 KV cache 保留、prefill/decode 与 attention/FFN 分离。
  • NVIDIA Dynamo / NIXL / LMCache / KV-aware routing / vLLM Production Stack。
  • vLLM / SGLang / TensorRT-LLM / LMDeploy / Modular MAX benchmark 集合。

数据库 / 云原生补强:

  • Jay weekly briefing 补了 database、PostgreSQL/MySQL、Kubernetes DRA/GPU 编排、Kubernetes 数据库架构、Platform Engineering。
  • 但这些条目的可信度差异很大,需要把学术论文、官方博客、行业营销报告分层。

协调判断:systems 应继续拆为:

  • llm-serving-systems:MiniPIC、Dynamo、LMCache、disaggregation、KV cache tiering。
  • serving-reliability:GPU software aging、request cancellation、fault tolerance、observability。
  • data-vector-systems:pgvector / Qdrant / Milvus / LanceDB / vector DB benchmark。
  • cloud-native-ai-systems:Kubernetes DRA、GPU scheduling、Gateway API、platform engineering。

3.5 engineering:强覆盖,可复现材料多,但必须统一元数据字段

今日强覆盖:

  • vLLM Docker / K8s / Tensor Parallel / FP8 部署命令。
  • SGLang RadixAttention、vLLM optimization levels、LMCache config、Dynamo Kubernetes 部署。
  • GPU profiling:Nsight Compute / Nsight Systems / PyTorch Profiler。
  • CSDN MCP Server + Client 源码实现、Qwen / DeepSeek / TensorRT-LLM 部署。
  • Agent debugging:tool chaining failure、observability、guardrails、prompt injection 防御。

协调判断:工程条目质量总体不错,但入库前必须统一字段:

模型硬件框架版本CUDA/驱动batch/并发输入/输出长度量化方式KV cache 设置命令/YAML日志/指标是否可复现是否来自官方/社区/营销文

3.6 csdn:专项稿有覆盖,周报口径存在冲突

今日 CSDN 覆盖主要来自 Jay:

  • MCP / Tool Calling / Agent 三层结构与 Python 源码实现。
  • 多模态 LLM 部署。
  • FP8 / INT8 量化流水线。
  • DeepSeek / Qwen / vLLM / SGLang 部署。
  • RAG / Agent / MCP / Skill 全景解释。

冲突点:Jay weekly briefing 中写“本次未检索到符合高价值标准的 CSDN 文章”,但 Jay 当天专项稿实际收录了多篇 CSDN 高价值候选。建议解释为:weekly briefing 的 CSDN 判断只适用于其“数据库/云原生”检索范围,不代表当天全局 CSDN 结论。

协调判断:CSDN 可以保留,但只进“待核验工程池”,正式入库前必须人工打开全文确认是否包含版本、环境、命令、源码路径、复现过程或真实排障经验。


4. 候选条目(跨实例合并视角)

  1. Recursive Agent Harnesses (RAH) - 来源:Tom;arXiv 2606.13643。 - 分类:agent long-context harness subagent。 - 判断:高价值;适合与 agent-skills / MCP / recursive decomposition 合并看。 - 后续:精读 subagent 设计、Oolong-Synthetic 设置和 baseline 完整表。

  2. Unified Rollout Budget Allocation for Agentic RL - 来源:Tom;arXiv 2606.11119。 - 分类:agent-rl reasoning-optimization tree-search。 - 判断:高价值但偏训练/算法;需要确认与工程知识库主线的关系。

  3. Context-Fractured Decomposition Attacks (CFD) - 来源:Tom;arXiv 2606.09084v1。 - 分类:agent-security tool-using-agent adversarial。 - 判断:适合进入 agent security 主题页;与 prompt injection / tool chaining failure 互补。

  4. RAG over Thinking Traces (T³) - 来源:Tom;arXiv 2605.03344v2。 - 分类:rag reasoning thinking-trace。 - 判断:高价值;但涉及模型内部推理轨迹,需核验可获得性、隐私和生产可行性。

  5. DIVERGE / TAA-k / DCD - 来源:Tom。 - 分类:rag retrieval-control adaptive-k diversity enterprise-kb。 - 判断:可组合成 RAG retrieval control 主题包,不建议分散成多篇浅摘要。

  6. VideoRAG + LongVideoAgent + M3Exam - 来源:Tom、flyP、补充检索。 - 分类:multimodal video-rag long-video-agent multimodal-memory。 - 判断:多模态补短板优先条目;建议独立审稿。

  7. MiniPIC: Flexible Position-Independent Caching in vLLM - 来源:Jay;arXiv 2606.13126;IBM/vLLM commit 线索。 - 分类:llm-serving-systems vllm kv-cache prefix-caching。 - 判断:晚间新增最高价值 systems 条目;需要代码级核验。

  8. GPU Software Aging in vLLM Serving - 来源:Jay;arXiv 2606.11916v1。 - 分类:serving-reliability gpu vllm memory-management。 - 判断:填补长期运行可靠性空白;需确认实测 MTBF / 老化指标。

  9. Agentic Serving scheduling / KV state management - 来源:Jay。 - 分类:agentic-serving disaggregation kv-cache tool-call。 - 判断:适合与 Dynamo / LMCache / SGLang / vLLM disaggregation 合并成 serving 调度主题。

  10. NVIDIA Dynamo + LMCache + vLLM Production Stack

    • 来源:Jay、补充检索、GitHub / docs 线索。
    • 分类:dynamo lmcache nixl kv-aware-routing distributed-inference
    • 判断:高价值;必须区分 NVIDIA 官方文档、LMCache 官方、Spheron 第三方教程和社区 benchmark。
  11. SSGM / Mem0 / TOKI / ReMemR1 agent memory 包

    • 来源:Jay、Jay weekly、flyP。
    • 分类:agent-memory memory-governance long-horizon-agent
    • 判断:适合从“记忆治理 + 工程实现 + 理论模型 + 回看机制”四层整理。
  12. CSDN MCP / inference deployment 高价值候选池

    • 来源:Jay。
    • 分类:csdn mcp deployment vllm sglang tensorrt-llm
    • 判断:只进待核验池;不直接进入 published。
  13. Substack AgentOps / AI Systems Engineer / FutureAGI Evaluation

    • 来源:补充检索。
    • 分类:substack agentops evaluation production-ai-systems
    • 判断:可作为趋势线索;需回查原文、作者背景与是否有案例数据库/代码/官方来源。

5. 高价值条目(建议优先进入审稿队列)

  1. MiniPIC + GPU Software Aging + Agentic Serving - 优先级:高。 - 建议路径:/shared/research-kb/review/llm-serving-systems/vllm-position-independent-cache-aging-agentic-serving.md - 动作:精读 arXiv、IBM/vLLM commit、vLLM issue/PR;确认 benchmark 可复现性。

  2. RAG Thinking Traces + Diversity + Adaptive-k - 优先级:高。 - 建议路径:/shared/research-kb/review/rag-retrieval-control/rag-thinking-traces-diverge-adaptive-k-2026.md - 动作:合并 T³、DIVERGE、TAA-k、DCD;避免写成“RAG 2026 万金油全景”。

  3. Agent Harness / Evaluation / Security - 优先级:高。 - 建议路径:/shared/research-kb/review/agent-evaluation-security/recursive-harnesses-cfd-agent-benchmarks-2026.md - 动作:合并 RAH、CFD、Agent Eval Survey、Jenova/ALE/Confident AI;商业基准单独标注可信度。

  4. VideoRAG + LongVideoAgent + M3Exam - 优先级:高。 - 建议路径:/shared/research-kb/review/multimodal-agent/video-rag-longvideoagent-m3exam-2026.md - 动作:由 flyP LongVideoAgent 精读扩展;补 VideoRAG / V-RAGBench 与 M3Exam。

  5. Agent Memory Governance & Systems 2026 - 优先级:中高。 - 建议路径:/shared/research-kb/review/agent-memory/ssgm-mem0-toki-rememr1-2026.md - 动作:SSGM、Mem0、TOKI、ReMemR1、multimodal memory benchmark 归并。

  6. Inference Benchmark Normalization - 优先级:中高。 - 建议路径:/shared/research-kb/review/inference-benchmark/vllm-sglang-tensorrt-lmcache-dynamo-normalization.md - 动作:统一 benchmark 字段;禁止写“某框架绝对第一”。

  7. CSDN 高价值工程候选池 - 优先级:中。 - 建议路径:/shared/research-kb/review/csdn-high-value/2026-06-13-mcp-inference-deployment-validation.md - 动作:人工核验全文后再拆分主题页。


6. Substack 元数据核对与处理建议

条目 作者/专栏 链接 发布时间 核心观点 可信度 后续核验
The AI Agents Stack 2026 Edition The AI Engineer / swyx 团队 https://theaiengineer.substack.com/p/the-ai-agents-stack-2026-edition 待核验 Agent 生产栈应包含 state、tool、memory、eval、observability 等层 已重复出现,合并到 agent-production-stack;核验调查数据来源
vLLM vs Ollama vs SGLang vs TensorRT-LLM The AI Engineer https://theaiengineer.substack.com/p/vllm-vs-ollama-vs-sglang-vs-tensorrt 待核验 推理引擎选型视角 中高 只作 benchmark 线索,需回到官方/实测数据
AI Weekly 2026 W21 The Agentic Engineer / Mr. Nine https://theagenticengineer.substack.com/p/ai-weekly-2026-w21 2026-06(Jay 记录) vLLM Elastic Expert Parallelism、开源生态动态 中高 核验 vLLM PR / release note
Agentic Systems Fundamentals O'Reilly Radar / Maarten Grootendorst 访谈 https://oreillyradar.substack.com/p/generative-ai-in-the-real-world-agentic 待核验 Agent 是 LLM + tools + memory + guardrails 的工程循环;技术债警告 中高 访谈观点可入背景,不作论文证据
How Tool Chaining Fails in Production LLM Agents FutureAGI https://futureagi.substack.com/p/how-tool-chaining-fails-in-production 待核验 tool chaining 级联失效、上下文压缩损耗、错误传播 中高 回查 OpenReview / LangGraph / observability 文档
AgentOps: Lessons from Over 1,400 Production Deployments Vanishing Gradients / Hugo Bowne-Anderson + Alex Strick van Linschoten https://hugobowne.substack.com/p/agentops-lessons-from-over-1400-production 2026-04-10(搜索片段) production AI case studies、context engineering、silent failures、LLMOps database 中高 需打开原文确认 LLMOps Database 来源、案例数量和可访问性
Welcome to The AI Systems Engineer Journey The Neural Maze https://theneuralmaze.substack.com/p/welcome-to-the-ai-systems-engineer 待核验 RAG / Agentic AI system 的生产架构拆解 适合学习路线/工程框架背景,不进核心研究
The 2026 Roadmap: Production AI/ML Systems Jam with AI https://jamwithai.substack.com/p/the-2026-roadmap-production-aiml 2026-01-21(搜索片段) Production AI/ML Systems、RAG、agents、MLOps 路线 偏课程/路线图;只作背景
Local plug-and-play LLM inference optimization adlrocha https://adlrocha.substack.com/p/adlrocha-towards-local-plug-and-play 待核验 EAGLE-3 / MTP / Gemma 4 / 本地推理优化 中高 核验对应代码、论文、官方 release
Sebastian Raschka 专栏 Sebastian Raschka / rasbt https://substack.com/@rasbt 专栏持续更新 多模态 LLM、代码驱动实现、LLM from scratch 高(作者可信) 资源页可收录,具体文章逐篇核验

7. 冲突、重复与需人工确认的问题

7.1 benchmark 结论仍然冲突

vLLM / SGLang / TensorRT-LLM / LMDeploy / Modular MAX / Dynamo / LMCache 相关条目来自不同来源,存在口径不一致:

  • 有的测吞吐,有的测 TTFT / TPOT / P99 latency。
  • 有的使用 H100,有的使用 A100 / Blackwell / 本地消费级卡。
  • 有的开启 FP8 / KV reuse / prefix cache,有的没有。
  • 有的是 serving framework,有的是 orchestration layer,有的是 KV cache layer,层级不同。

处理建议:建立 benchmark-normalization 审稿稿,不在主题页写绝对排名。

7.2 CSDN 口径冲突

Jay weekly briefing 称未发现高价值 CSDN,但 Jay 专项 CSDN 稿收录多篇高价值候选。建议写作时标注:

  • 周报结论仅限其数据库/云原生检索范围。
  • 当天全局 CSDN 有覆盖,但均需人工全文核验。

7.3 商业 benchmark 需要降权处理

Jenova.ai、Vals AI、Confident AI、FutureAGI、Spheron、DigitalApplied、AIMultiple 等商业/内容营销属性较强。可保留为工程线索,但正式结论必须回查:

  • 原始任务定义。
  • 数据集是否公开。
  • 模型版本和调用参数。
  • 是否有可复现脚本。
  • 是否存在供应商偏置。

7.4 HF / 模型动态需人工确认

Jay 与 Tom 提到 Gemma 4 12B、DiffusionGemma、DeepSeek-V4-Pro、Qwen3.6、Kimi-K2.7-Code、MiniMax-M3、LocateAnything 等模型动态。入库前需确认:

  • 是否有官方 blog / model card。
  • 模型名称是否准确。
  • likes / downloads / trending rank 是否混用。
  • 许可证和工具调用 / 多模态能力边界。

7.5 arXiv 编号和发布时间需核验

Tom 已标注 arXiv 2507.21504v1 编号异常;其他 2606.* 新文也需要逐条确认是否真实可访问、是否已有 PDF、是否为 survey / workshop / accepted paper。

7.6 多模态仍缺主审稿人

多模态线索已足够,但 6/13 没有新的 flyP 主稿。建议下一轮明确分工:

  • flyP:LongVideoAgent + VideoRAG + M3Exam 主稿。
  • Tom:补 benchmark / evaluation taxonomy。
  • Jay:只补工程部署和代码复现,不再扩展模型动态流水账。

7.7 Substack 重复条目需合并

The AI Engineer、Jam with AI、AIxFunda、Packt DataPro、The Curious Mak 多次出现。建议:

  • The AI Engineer:保留在 agent-production-stackinference-benchmark 两个主题中,但只记录一次元数据。
  • Jam / Packt / Curious Mak / AIxFunda:合并为 ai-engineer-role-and-skill-2026 背景页,不进入核心研究队列。

8. 分类标签

agent agent-architecture agent-harness agent-evaluation agent-security agent-memory tool-chaining mcp rag thinking-trace-rag adaptive-k diversity-rag agentic-rag rag-evaluation multimodal video-rag long-video-agent multimodal-memory systems llm-serving-systems vllm sglang tensorrt-llm dynamo lmcache kv-cache disaggregation gpu-reliability inference-engineering benchmark-normalization database vector-db cloud-native kubernetes engineering deployment csdn substack


9. 建议写入路径

9.1 本轮实际写入路径

  • /shared/research-kb/inbox/stephen/2026-06-13-stephen-coordination-check-evening.md

9.2 建议后续审稿路径

  • /shared/research-kb/review/llm-serving-systems/vllm-position-independent-cache-aging-agentic-serving.md
  • /shared/research-kb/review/rag-retrieval-control/rag-thinking-traces-diverge-adaptive-k-2026.md
  • /shared/research-kb/review/agent-evaluation-security/recursive-harnesses-cfd-agent-benchmarks-2026.md
  • /shared/research-kb/review/multimodal-agent/video-rag-longvideoagent-m3exam-2026.md
  • /shared/research-kb/review/agent-memory/ssgm-mem0-toki-rememr1-2026.md
  • /shared/research-kb/review/inference-benchmark/vllm-sglang-tensorrt-lmcache-dynamo-normalization.md
  • /shared/research-kb/review/csdn-high-value/2026-06-13-mcp-inference-deployment-validation.md

10. 是否需要精读 / 审稿 / 主题页更新

10.1 需要精读

  • MiniPIC:arXiv 2606.13126、IBM/vLLM commit、真实 RAG / Agentic workload 复现。
  • GPU Software Aging:arXiv 2606.11916v1,重点看量化老化指标和实验设计。
  • RAH:arXiv 2606.13643,重点看 subagent / harness 设计与 Oolong-Synthetic。
  • T³ / DIVERGE / TAA-k / DCD:按 retrieval control 主题合并精读。
  • LongVideoAgent / VideoRAG / M3Exam:多模态 agent 主稿。
  • SSGM / TOKI / ReMemR1 / Mem0:agent memory governance 与 systems 对照。

10.2 需要审稿

  • 所有 vLLM / SGLang / TensorRT-LLM / Dynamo / LMCache benchmark。
  • 所有商业 benchmark 与 leaderboard。
  • 所有 HF Trending 模型动态。
  • 所有 CSDN 量化、部署、性能提升、精度损失结论。
  • 所有 Substack 中的行业调查数字、案例数量、benchmark 名称。

10.3 需要主题页更新

  • agent-architecture-and-harness
  • agent-evaluation-and-security
  • agent-memory-governance
  • rag-retrieval-control
  • rag-production-architecture
  • multimodal-rag-and-agent
  • llm-serving-systems
  • serving-reliability
  • inference-benchmark-normalization
  • csdn-high-value-engineering-pool

11. 总协调结论

晚间覆盖总体评价:

  • agent:强,Tom 补齐了评测/安全/long-context harness 线。
  • rag:强,但全景类重复最多,需拆成 retrieval control / eval / production / multimodal RAG。
  • multimodal:中高,线索足够,但仍缺一篇独立精读主稿。
  • systems:很强,尤其是 vLLM / KV cache / disaggregation / serving reliability;数据库/云原生开始补强但需核验。
  • engineering:强,部署命令和工程实践丰富;必须统一版本和复现字段。
  • csdn:有覆盖,但只应进入人工核验候选池。

最重要的下一步不是继续堆条目,而是:

  1. 先做 vLLM / SGLang / TensorRT-LLM / Dynamo / LMCache benchmark normalization。
  2. RAG 从全景文拆成可审稿的 retrieval-control / evaluation / multimodal 子主题。
  3. 明确多模态主稿负责人,优先 LongVideoAgent + VideoRAG + M3Exam。
  4. 对 CSDN 和商业 benchmark 设硬闸门:无版本、环境、命令、源码、实测或排障证据,不进正式库。

未执行任何 GitHub 写入操作。