Stephen 协调检查草稿 · 2026-06-13 晚间批次

实例： Stephen
时间： 2026-06-13 22:45 CST / 2026-06-13 14:45 UTC
任务： 检查当天各实例研究简报是否覆盖 agent、rag、multimodal、systems、engineering、csdn 等分类；指出缺口、冲突与需要人工确认的问题。
边界： 未写入 /shared/research-kb/published/；未执行 git commit、git push、gh pr 或任何 GitHub 写入操作。
Substack 规则执行： 本轮补充检索显式纳入 substack.com；Substack 只作为研究线索和工程洞察来源，记录作者/专栏、链接、发布时间、核心观点、可信度与后续核验状态，不复制长段原文。

1. 本次主题

2026-06-13 晚间共享研究草稿的跨实例协调检查：

核对 /shared/research-kb/inbox/{stephen,tom,jay,flyp,spark}/ 中可见草稿。
重点更新午间 Stephen 协调检查之后新增的 Tom / Jay 晚间材料。
判断 agent、rag、multimodal、systems、engineering、csdn 六类覆盖是否均衡。
识别重复条目、口径冲突、来源可信度风险和需要人工确认的问题。
只产出 GitHub-ready 协调草稿与建议路径，不直接写 published。

2. 检索范围与已核对草稿

2.1 共享目录核对

已核对以下目录中的可见草稿：

/shared/research-kb/inbox/stephen/
/shared/research-kb/inbox/tom/
/shared/research-kb/inbox/jay/
/shared/research-kb/inbox/flyp/
/shared/research-kb/inbox/spark/

2.2 2026-06-13 当天重点草稿

实例	当天新增	本轮判断
Stephen	1 篇午间协调检查	作为去重和口径基线。
Tom	2 篇	晚间新增 RAG / agent / multimodal / benchmark 雷达，补强学术条目。
Jay	13 篇	覆盖工程、systems、CSDN、Substack、数据库/云原生，数量最多；重复和冲突也最多。
flyP	0 篇	无 6/13 新稿；参考 6/12 LongVideoAgent、ReMemR1、Raschka、Long-context RAG 精读。
Spark	0 篇	无 6/13 新稿；参考 6/10 Agentic RAG runtime reliability / enterprise knowledge plane 草稿。

2.3 重点文件

Tom：
/shared/research-kb/inbox/tom/2026-06-13-agent-rag-longcontext-radar.md
/shared/research-kb/inbox/tom/2026-06-13-rag-agent-multimodal-radar.md
Jay：
/shared/research-kb/inbox/jay/2026-06-13-evening-inference-systems-minipic-gpu-aging.md
/shared/research-kb/inbox/jay/2026-06-13-evening-production-deploy-vllm-sglang-adlrocha.md
/shared/research-kb/inbox/jay/2026-06-13-evening-database-backend-cloudnative-dra-substack.md
/shared/research-kb/inbox/jay/2026-06-13-csdn-mcp-multimodal-agent-engineering.md
/shared/research-kb/inbox/jay/2026-06-13-weekly-briefing.md
flyP 背景：
/shared/research-kb/inbox/flyp/2026-06-12-longvideoagent.md
/shared/research-kb/inbox/flyp/2026-06-12-rememr1-待补查.md
/shared/research-kb/inbox/flyp/2026-06-12-substack-rasbt.md
/shared/research-kb/inbox/flyp/2026-06-12-long-context-rag-inference.md
Spark 背景：
/shared/research-kb/inbox/spark/2026-06-10-agentic-rag-runtime-reliability.md

2.4 本轮补充外部检索

为补足协调判断，做了轻量 Tavily 补充检索，来源覆盖：

Substack：site:substack.com AI research LLM systems agent RAG multimodal MLOps engineering notes 2026
学术 / 论文：arXiv 2026 LLM agents RAG multimodal systems inference benchmark June 2026
GitHub / HF / 官方文档线索：GitHub Hugging Face vLLM SGLang LMCache NVIDIA Dynamo MiniPIC 2026 LLM inference systems

补充检索只用于发现线索和交叉核验方向；未把搜索片段当作最终事实。

3. 分类覆盖检查

3.1 `agent`：强覆盖，且晚间 Tom 补齐了评测/安全线

今日新增覆盖点：

Tom：Recursive Agent Harnesses、rollout budget allocation for agentic RL、Jenova.ai 长上下文 agent orchestration benchmark、CFD tool-using agent attack、Agent evaluation survey、Confident AI metrics。
Jay：SSGM / Mem0 / TOKI / agent memory、Tool Chaining 生产失效、AI Agents Stack、agent-skills、MCP 工程、Agentic Serving 调度。
Spark 背景：LogicalRAG、Microsoft Foundry、enterprise agent runtime reliability。
flyP 背景：ReMemR1、LongVideoAgent 的多 agent reasoning。

协调判断：agent 覆盖很强，但需要拆分为三条主题线，避免把学习路线、商业基准、生产工程和学术论文混写：

agent-architecture-and-harness：RAH、agent-skills、MCP、Agentic Serving。
agent-evaluation-and-security：Jenova / ALE / Confident AI / CFD / survey / KDD workshop。
agent-memory-governance：SSGM、Mem0、TOKI、ReMemR1、M3Exam / multimodal memory。

3.2 `rag`：强覆盖，但“RAG 2026 全景文”重复风险最高

今日新增覆盖点：

Tom：T³（RAG over thinking traces）、DIVERGE、TAA-k、DCD、VideoRAG / V-RAGBench、Awesome-RAG-Evaluation。
Jay：Graph-RAG → Agentic RAG → 长期记忆 → 无检索推理、RAG 指标演进、企业私有化 RAG 蓝图、向量数据库选型。
Spark 背景：LogicalRAG、Agentic Retrieval、knowledge plane。
flyP 背景：RAPID、Inference Scaling for Long-context RAG。

协调判断：覆盖充分，但同质化高。建议拆成：

rag-reasoning-and-thinking-traces：T³、推理轨迹检索、CoT / ToT 检索增强。
rag-retrieval-control-and-adaptive-k：TAA-k、LogicalRAG、Agentic Retrieval、停止检索条件。
rag-diversity-and-open-ended-qa：DIVERGE。
multimodal-video-rag：VideoRAG、LongVideoAgent、M3Exam、multimodal RAG survey。
rag-production-architecture：hybrid search、reranker、chunking、GraphRAG、eval harness。

3.3 `multimodal`：比午间明显补强，但仍缺一篇独立精读主稿

今日覆盖点：

Tom：VideoRAG & V-RAGBench、Gemma 4 12B、Agentic multimodal benchmark 线索。
Jay：CSDN 多模态 LLM 部署、DiffusionGemma、Gemma / Qwen-Omni / LocateAnything / MiniMax-M3 等模型动态。
flyP：LongVideoAgent 已有精读草稿，可作为多模态 agent 主稿基础。
外部补充：M3Exam / multimodal memory、multimodal RAG survey、HM-RAG 等线索。

协调判断：多模态已经不缺“线索”，缺的是一篇把论文、代码、数据集、评测协议连起来的精读主稿。建议优先由 flyP 的 LongVideoAgent 草稿扩展，合并 Tom 的 VideoRAG / V-RAGBench，再补 M3Exam 做 memory 侧对照。

3.4 `systems`：LLM serving systems 极强，数据库/云原生开始补强

强覆盖：

MiniPIC：vLLM position-independent caching、RAG / Agentic workload 的 KV cache 复用。
GPU software aging：vLLM 长期运行内存/调度状态漂移。
Agentic Serving：conversation-level disaggregation、tool-call 期间 KV cache 保留、prefill/decode 与 attention/FFN 分离。
NVIDIA Dynamo / NIXL / LMCache / KV-aware routing / vLLM Production Stack。
vLLM / SGLang / TensorRT-LLM / LMDeploy / Modular MAX benchmark 集合。

数据库 / 云原生补强：

Jay weekly briefing 补了 database、PostgreSQL/MySQL、Kubernetes DRA/GPU 编排、Kubernetes 数据库架构、Platform Engineering。
但这些条目的可信度差异很大，需要把学术论文、官方博客、行业营销报告分层。

协调判断：systems 应继续拆为：

llm-serving-systems：MiniPIC、Dynamo、LMCache、disaggregation、KV cache tiering。
serving-reliability：GPU software aging、request cancellation、fault tolerance、observability。
data-vector-systems：pgvector / Qdrant / Milvus / LanceDB / vector DB benchmark。
cloud-native-ai-systems：Kubernetes DRA、GPU scheduling、Gateway API、platform engineering。

3.5 `engineering`：强覆盖，可复现材料多，但必须统一元数据字段

今日强覆盖：

vLLM Docker / K8s / Tensor Parallel / FP8 部署命令。
SGLang RadixAttention、vLLM optimization levels、LMCache config、Dynamo Kubernetes 部署。
GPU profiling：Nsight Compute / Nsight Systems / PyTorch Profiler。
CSDN MCP Server + Client 源码实现、Qwen / DeepSeek / TensorRT-LLM 部署。
Agent debugging：tool chaining failure、observability、guardrails、prompt injection 防御。

协调判断：工程条目质量总体不错，但入库前必须统一字段：

模型、硬件、框架版本、CUDA/驱动、batch/并发、输入/输出长度、量化方式、KV cache 设置、命令/YAML、日志/指标、是否可复现、是否来自官方/社区/营销文。

3.6 `csdn`：专项稿有覆盖，周报口径存在冲突

今日 CSDN 覆盖主要来自 Jay：

MCP / Tool Calling / Agent 三层结构与 Python 源码实现。
多模态 LLM 部署。
FP8 / INT8 量化流水线。
DeepSeek / Qwen / vLLM / SGLang 部署。
RAG / Agent / MCP / Skill 全景解释。

冲突点：Jay weekly briefing 中写“本次未检索到符合高价值标准的 CSDN 文章”，但 Jay 当天专项稿实际收录了多篇 CSDN 高价值候选。建议解释为：weekly briefing 的 CSDN 判断只适用于其“数据库/云原生”检索范围，不代表当天全局 CSDN 结论。

协调判断：CSDN 可以保留，但只进“待核验工程池”，正式入库前必须人工打开全文确认是否包含版本、环境、命令、源码路径、复现过程或真实排障经验。

4. 候选条目（跨实例合并视角）

Recursive Agent Harnesses (RAH) - 来源：Tom；arXiv 2606.13643。 - 分类：agent long-context harness subagent。 - 判断：高价值；适合与 agent-skills / MCP / recursive decomposition 合并看。 - 后续：精读 subagent 设计、Oolong-Synthetic 设置和 baseline 完整表。
Unified Rollout Budget Allocation for Agentic RL - 来源：Tom；arXiv 2606.11119。 - 分类：agent-rl reasoning-optimization tree-search。 - 判断：高价值但偏训练/算法；需要确认与工程知识库主线的关系。
Context-Fractured Decomposition Attacks (CFD) - 来源：Tom；arXiv 2606.09084v1。 - 分类：agent-security tool-using-agent adversarial。 - 判断：适合进入 agent security 主题页；与 prompt injection / tool chaining failure 互补。
RAG over Thinking Traces (T³) - 来源：Tom；arXiv 2605.03344v2。 - 分类：rag reasoning thinking-trace。 - 判断：高价值；但涉及模型内部推理轨迹，需核验可获得性、隐私和生产可行性。
DIVERGE / TAA-k / DCD - 来源：Tom。 - 分类：rag retrieval-control adaptive-k diversity enterprise-kb。 - 判断：可组合成 RAG retrieval control 主题包，不建议分散成多篇浅摘要。
VideoRAG + LongVideoAgent + M3Exam - 来源：Tom、flyP、补充检索。 - 分类：multimodal video-rag long-video-agent multimodal-memory。 - 判断：多模态补短板优先条目；建议独立审稿。
MiniPIC: Flexible Position-Independent Caching in vLLM - 来源：Jay；arXiv 2606.13126；IBM/vLLM commit 线索。 - 分类：llm-serving-systems vllm kv-cache prefix-caching。 - 判断：晚间新增最高价值 systems 条目；需要代码级核验。
GPU Software Aging in vLLM Serving - 来源：Jay；arXiv 2606.11916v1。 - 分类：serving-reliability gpu vllm memory-management。 - 判断：填补长期运行可靠性空白；需确认实测 MTBF / 老化指标。
Agentic Serving scheduling / KV state management - 来源：Jay。 - 分类：agentic-serving disaggregation kv-cache tool-call。 - 判断：适合与 Dynamo / LMCache / SGLang / vLLM disaggregation 合并成 serving 调度主题。
NVIDIA Dynamo + LMCache + vLLM Production Stack
- 来源：Jay、补充检索、GitHub / docs 线索。
- 分类：dynamo lmcache nixl kv-aware-routing distributed-inference。
- 判断：高价值；必须区分 NVIDIA 官方文档、LMCache 官方、Spheron 第三方教程和社区 benchmark。
SSGM / Mem0 / TOKI / ReMemR1 agent memory 包
- 来源：Jay、Jay weekly、flyP。
- 分类：agent-memory memory-governance long-horizon-agent。
- 判断：适合从“记忆治理 + 工程实现 + 理论模型 + 回看机制”四层整理。
CSDN MCP / inference deployment 高价值候选池
- 来源：Jay。
- 分类：csdn mcp deployment vllm sglang tensorrt-llm。
- 判断：只进待核验池；不直接进入 published。
Substack AgentOps / AI Systems Engineer / FutureAGI Evaluation
- 来源：补充检索。
- 分类：substack agentops evaluation production-ai-systems。
- 判断：可作为趋势线索；需回查原文、作者背景与是否有案例数据库/代码/官方来源。

5. 高价值条目（建议优先进入审稿队列）

MiniPIC + GPU Software Aging + Agentic Serving - 优先级：高。 - 建议路径：/shared/research-kb/review/llm-serving-systems/vllm-position-independent-cache-aging-agentic-serving.md - 动作：精读 arXiv、IBM/vLLM commit、vLLM issue/PR；确认 benchmark 可复现性。
RAG Thinking Traces + Diversity + Adaptive-k - 优先级：高。 - 建议路径：/shared/research-kb/review/rag-retrieval-control/rag-thinking-traces-diverge-adaptive-k-2026.md - 动作：合并 T³、DIVERGE、TAA-k、DCD；避免写成“RAG 2026 万金油全景”。
Agent Harness / Evaluation / Security - 优先级：高。 - 建议路径：/shared/research-kb/review/agent-evaluation-security/recursive-harnesses-cfd-agent-benchmarks-2026.md - 动作：合并 RAH、CFD、Agent Eval Survey、Jenova/ALE/Confident AI；商业基准单独标注可信度。
VideoRAG + LongVideoAgent + M3Exam - 优先级：高。 - 建议路径：/shared/research-kb/review/multimodal-agent/video-rag-longvideoagent-m3exam-2026.md - 动作：由 flyP LongVideoAgent 精读扩展；补 VideoRAG / V-RAGBench 与 M3Exam。
Agent Memory Governance & Systems 2026 - 优先级：中高。 - 建议路径：/shared/research-kb/review/agent-memory/ssgm-mem0-toki-rememr1-2026.md - 动作：SSGM、Mem0、TOKI、ReMemR1、multimodal memory benchmark 归并。
Inference Benchmark Normalization - 优先级：中高。 - 建议路径：/shared/research-kb/review/inference-benchmark/vllm-sglang-tensorrt-lmcache-dynamo-normalization.md - 动作：统一 benchmark 字段；禁止写“某框架绝对第一”。
CSDN 高价值工程候选池 - 优先级：中。 - 建议路径：/shared/research-kb/review/csdn-high-value/2026-06-13-mcp-inference-deployment-validation.md - 动作：人工核验全文后再拆分主题页。

6. Substack 元数据核对与处理建议

条目	作者/专栏	链接	发布时间	核心观点	可信度	后续核验
The AI Agents Stack 2026 Edition	The AI Engineer / swyx 团队	`https://theaiengineer.substack.com/p/the-ai-agents-stack-2026-edition`	待核验	Agent 生产栈应包含 state、tool、memory、eval、observability 等层	高	已重复出现，合并到 `agent-production-stack`；核验调查数据来源
vLLM vs Ollama vs SGLang vs TensorRT-LLM	The AI Engineer	`https://theaiengineer.substack.com/p/vllm-vs-ollama-vs-sglang-vs-tensorrt`	待核验	推理引擎选型视角	中高	只作 benchmark 线索，需回到官方/实测数据
AI Weekly 2026 W21	The Agentic Engineer / Mr. Nine	`https://theagenticengineer.substack.com/p/ai-weekly-2026-w21`	2026-06（Jay 记录）	vLLM Elastic Expert Parallelism、开源生态动态	中高	核验 vLLM PR / release note
Agentic Systems Fundamentals	O'Reilly Radar / Maarten Grootendorst 访谈	`https://oreillyradar.substack.com/p/generative-ai-in-the-real-world-agentic`	待核验	Agent 是 LLM + tools + memory + guardrails 的工程循环；技术债警告	中高	访谈观点可入背景，不作论文证据
How Tool Chaining Fails in Production LLM Agents	FutureAGI	`https://futureagi.substack.com/p/how-tool-chaining-fails-in-production`	待核验	tool chaining 级联失效、上下文压缩损耗、错误传播	中高	回查 OpenReview / LangGraph / observability 文档
AgentOps: Lessons from Over 1,400 Production Deployments	Vanishing Gradients / Hugo Bowne-Anderson + Alex Strick van Linschoten	`https://hugobowne.substack.com/p/agentops-lessons-from-over-1400-production`	2026-04-10（搜索片段）	production AI case studies、context engineering、silent failures、LLMOps database	中高	需打开原文确认 LLMOps Database 来源、案例数量和可访问性
Welcome to The AI Systems Engineer Journey	The Neural Maze	`https://theneuralmaze.substack.com/p/welcome-to-the-ai-systems-engineer`	待核验	RAG / Agentic AI system 的生产架构拆解	中	适合学习路线/工程框架背景，不进核心研究
The 2026 Roadmap: Production AI/ML Systems	Jam with AI	`https://jamwithai.substack.com/p/the-2026-roadmap-production-aiml`	2026-01-21（搜索片段）	Production AI/ML Systems、RAG、agents、MLOps 路线	中	偏课程/路线图；只作背景
Local plug-and-play LLM inference optimization	adlrocha	`https://adlrocha.substack.com/p/adlrocha-towards-local-plug-and-play`	待核验	EAGLE-3 / MTP / Gemma 4 / 本地推理优化	中高	核验对应代码、论文、官方 release
Sebastian Raschka 专栏	Sebastian Raschka / rasbt	`https://substack.com/@rasbt`	专栏持续更新	多模态 LLM、代码驱动实现、LLM from scratch	高（作者可信）	资源页可收录，具体文章逐篇核验

7. 冲突、重复与需人工确认的问题

7.1 benchmark 结论仍然冲突

vLLM / SGLang / TensorRT-LLM / LMDeploy / Modular MAX / Dynamo / LMCache 相关条目来自不同来源，存在口径不一致：

有的测吞吐，有的测 TTFT / TPOT / P99 latency。
有的使用 H100，有的使用 A100 / Blackwell / 本地消费级卡。
有的开启 FP8 / KV reuse / prefix cache，有的没有。
有的是 serving framework，有的是 orchestration layer，有的是 KV cache layer，层级不同。

处理建议：建立 benchmark-normalization 审稿稿，不在主题页写绝对排名。

7.2 CSDN 口径冲突

Jay weekly briefing 称未发现高价值 CSDN，但 Jay 专项 CSDN 稿收录多篇高价值候选。建议写作时标注：

周报结论仅限其数据库/云原生检索范围。
当天全局 CSDN 有覆盖，但均需人工全文核验。

7.3 商业 benchmark 需要降权处理

Jenova.ai、Vals AI、Confident AI、FutureAGI、Spheron、DigitalApplied、AIMultiple 等商业/内容营销属性较强。可保留为工程线索，但正式结论必须回查：

原始任务定义。
数据集是否公开。
模型版本和调用参数。
是否有可复现脚本。
是否存在供应商偏置。

7.4 HF / 模型动态需人工确认

Jay 与 Tom 提到 Gemma 4 12B、DiffusionGemma、DeepSeek-V4-Pro、Qwen3.6、Kimi-K2.7-Code、MiniMax-M3、LocateAnything 等模型动态。入库前需确认：

是否有官方 blog / model card。
模型名称是否准确。
likes / downloads / trending rank 是否混用。
许可证和工具调用 / 多模态能力边界。

7.5 arXiv 编号和发布时间需核验

Tom 已标注 arXiv 2507.21504v1 编号异常；其他 2606.* 新文也需要逐条确认是否真实可访问、是否已有 PDF、是否为 survey / workshop / accepted paper。

7.6 多模态仍缺主审稿人

多模态线索已足够，但 6/13 没有新的 flyP 主稿。建议下一轮明确分工：

flyP：LongVideoAgent + VideoRAG + M3Exam 主稿。
Tom：补 benchmark / evaluation taxonomy。
Jay：只补工程部署和代码复现，不再扩展模型动态流水账。

7.7 Substack 重复条目需合并

The AI Engineer、Jam with AI、AIxFunda、Packt DataPro、The Curious Mak 多次出现。建议：

The AI Engineer：保留在 agent-production-stack 和 inference-benchmark 两个主题中，但只记录一次元数据。
Jam / Packt / Curious Mak / AIxFunda：合并为 ai-engineer-role-and-skill-2026 背景页，不进入核心研究队列。

8. 分类标签

agent agent-architecture agent-harness agent-evaluation agent-security agent-memory tool-chaining mcp rag thinking-trace-rag adaptive-k diversity-rag agentic-rag rag-evaluation multimodal video-rag long-video-agent multimodal-memory systems llm-serving-systems vllm sglang tensorrt-llm dynamo lmcache kv-cache disaggregation gpu-reliability inference-engineering benchmark-normalization database vector-db cloud-native kubernetes engineering deployment csdn substack

9. 建议写入路径

9.1 本轮实际写入路径

/shared/research-kb/inbox/stephen/2026-06-13-stephen-coordination-check-evening.md

9.2 建议后续审稿路径

/shared/research-kb/review/llm-serving-systems/vllm-position-independent-cache-aging-agentic-serving.md
/shared/research-kb/review/rag-retrieval-control/rag-thinking-traces-diverge-adaptive-k-2026.md
/shared/research-kb/review/agent-evaluation-security/recursive-harnesses-cfd-agent-benchmarks-2026.md
/shared/research-kb/review/multimodal-agent/video-rag-longvideoagent-m3exam-2026.md
/shared/research-kb/review/agent-memory/ssgm-mem0-toki-rememr1-2026.md
/shared/research-kb/review/inference-benchmark/vllm-sglang-tensorrt-lmcache-dynamo-normalization.md
/shared/research-kb/review/csdn-high-value/2026-06-13-mcp-inference-deployment-validation.md

10. 是否需要精读 / 审稿 / 主题页更新

10.1 需要精读

MiniPIC：arXiv 2606.13126、IBM/vLLM commit、真实 RAG / Agentic workload 复现。
GPU Software Aging：arXiv 2606.11916v1，重点看量化老化指标和实验设计。
RAH：arXiv 2606.13643，重点看 subagent / harness 设计与 Oolong-Synthetic。
T³ / DIVERGE / TAA-k / DCD：按 retrieval control 主题合并精读。
LongVideoAgent / VideoRAG / M3Exam：多模态 agent 主稿。
SSGM / TOKI / ReMemR1 / Mem0：agent memory governance 与 systems 对照。

10.2 需要审稿

所有 vLLM / SGLang / TensorRT-LLM / Dynamo / LMCache benchmark。
所有商业 benchmark 与 leaderboard。
所有 HF Trending 模型动态。
所有 CSDN 量化、部署、性能提升、精度损失结论。
所有 Substack 中的行业调查数字、案例数量、benchmark 名称。

10.3 需要主题页更新

agent-architecture-and-harness
agent-evaluation-and-security
agent-memory-governance
rag-retrieval-control
rag-production-architecture
multimodal-rag-and-agent
llm-serving-systems
serving-reliability
inference-benchmark-normalization
csdn-high-value-engineering-pool

11. 总协调结论

晚间覆盖总体评价：

agent：强，Tom 补齐了评测/安全/long-context harness 线。
rag：强，但全景类重复最多，需拆成 retrieval control / eval / production / multimodal RAG。
multimodal：中高，线索足够，但仍缺一篇独立精读主稿。
systems：很强，尤其是 vLLM / KV cache / disaggregation / serving reliability；数据库/云原生开始补强但需核验。
engineering：强，部署命令和工程实践丰富；必须统一版本和复现字段。
csdn：有覆盖，但只应进入人工核验候选池。

最重要的下一步不是继续堆条目，而是：

先做 vLLM / SGLang / TensorRT-LLM / Dynamo / LMCache benchmark normalization。
把 RAG 从全景文拆成可审稿的 retrieval-control / evaluation / multimodal 子主题。
明确多模态主稿负责人，优先 LongVideoAgent + VideoRAG + M3Exam。
对 CSDN 和商业 benchmark 设硬闸门：无版本、环境、命令、源码、实测或排障证据，不进正式库。

未执行任何 GitHub 写入操作。