← 笔记
Stephen 2026-06-10

Stephen 协调检查草稿 · 2026-06-10 晚间批次

实例:Stephen
时间:2026-06-10 22:45–23:10 CST
角色:总协调 / 去重 / 补漏 / 风险标注
边界:本轮只写入 Stephen 草稿区;未写入 published/,未执行 git commitgit pushgh pr 或任何 GitHub 写入。


1. 本次主题

检查 2026-06-10 当天各实例研究简报是否覆盖:

  • agent
  • rag
  • multimodal
  • systems
  • engineering
  • csdn

并在午间协调稿基础上,核对下午/晚间新增的 Jay 与 Spark 草稿,给出去重、补漏、冲突与人工确认清单。

总判断:今日覆盖面已足够宽,Agent/RAG、Systems/Engineering、CSDN 均为强覆盖;Multimodal 有学术覆盖但工程侧仍偏薄;Safety / Security / Observability 在 Spark 晚间草稿和本轮补充检索后已有候选,但仍建议作为下一轮重点专题。


2. 检索范围与已核对草稿

2.1 已读取并核对的共享目录

  • /shared/research-kb/inbox/stephen/
  • /shared/research-kb/inbox/tom/
  • /shared/research-kb/inbox/jay/
  • /shared/research-kb/inbox/flyp/
  • /shared/research-kb/inbox/spark/
  • /shared/research-kb/review/
  • /shared/research-kb/metadata/

review/metadata/ 本轮可见为空。

2.2 已核对文件

Stephen:

  • /shared/research-kb/inbox/stephen/2026-06-10-stephen-coordination-check.md
  • /shared/research-kb/inbox/stephen/mount-check.txt

Tom:

  • /shared/research-kb/inbox/tom/2026-06-10-agent-memory-rag-eval-radar.md
  • /shared/research-kb/inbox/tom/mount-check.txt

Jay:

  • /shared/research-kb/inbox/jay/2026-06-10-agent-memory-mechanisms-rag-eval.md
  • /shared/research-kb/inbox/jay/2026-06-10-csdn-source-debug-deploy.md
  • /shared/research-kb/inbox/jay/2026-06-10-database-backend-cloudnative-supplement.md
  • /shared/research-kb/inbox/jay/2026-06-10-database-cloudnative-backend.md
  • /shared/research-kb/inbox/jay/2026-06-10-github-trending-tools-ai-agents-2026.md
  • /shared/research-kb/inbox/jay/2026-06-10-inference-engineering.md
  • /shared/research-kb/inbox/jay/2026-06-10-inference-kv-serve-supplement.md
  • /shared/research-kb/inbox/jay/2026-06-10-llm-finetuning-rag.md
  • /shared/research-kb/inbox/jay/2026-06-10-multiagent-vector-db.md
  • /shared/research-kb/inbox/jay/2026-06-10-systems-engineering-kernels-storage-k8s.md
  • /shared/research-kb/inbox/jay/2026-06-10-systems-engineing-benchmarks-apple-container.md
  • /shared/research-kb/inbox/jay/mount-check.txt

Flyp:

  • /shared/research-kb/inbox/flyp/2026-06-10-multimodal.md
  • /shared/research-kb/inbox/flyp/mount-check.txt

Spark:

  • /shared/research-kb/inbox/spark/2026-06-10-agentic-rag-runtime-reliability.md
  • /shared/research-kb/inbox/spark/2026-06-10-agentic-rag-runtime-reliability.jsonl
  • /shared/research-kb/inbox/spark/mount-check.txt

2.3 外部补充检索

本轮针对午间缺口做轻量补充检索,范围包括:

  • 学术平台:arXiv,重点 agent reliabilityagent observabilityexecution provenanceagent securityprompt injection
  • 官方技术博客:Microsoft Security、Splunk Observability。
  • Substack:按 2026-06-10 新规则纳入候选,重点检索 AI agent reliability / observability / security / production stack。
  • CSDN:本轮未额外扩 CSDN,只核对 Jay/Spark 已给出的 CSDN 候选是否满足“版本、环境、命令、源码、复现、真实排障”门槛。

2.4 Substack 规则执行记录

本轮纳入并记录的 Substack 候选:

  1. The Agent Hype Just Broke. The Reliability Reckoning Is Here. - 作者 / 专栏:Kanishk Patel / Learn Agentic - 链接:https://learnagentic.substack.com/p/the-agent-hype-just-broke-the-reliability - 发布时间:2026-06-08 - 核心观点:行业叙事从 demo 成功转向 production reliability,强调一致性、鲁棒性、可预期性。 - 可信度:中;适合作行业观察,不可替代论文/官方报告。 - 后续核验:需要回到 arXiv、企业报告、平台文档核验数字与案例。

  2. Your AI workflow has a blind spot. Here are 5. - 作者 / 专栏:Raghav Mehra;Spark 草稿补充 Ashwin Francis / Cash & Cache - 链接:https://cashandcache.substack.com/p/when-not-to-use-ai - 发布时间:2026-06-09 - 核心观点:AI 工作流应明确边界、kill switch、人工复核与高风险禁区。 - 可信度:中上;工程边界意识强,但仍需核验引用链。 - 后续核验:核查原始研究与案例,不直接引用二手结论。

  3. The AI Agent Stack in 2026 - 作者 / 专栏:Aishwarya Naresh Reganti / The Nuanced Perspective - 链接:https://thenuancedperspective.substack.com/p/the-ai-agent-stack-in-2026 - 发布时间:2026-04-29 - 核心观点:2026 agent stack 中 Observability/Evals 与 Governance/Security 成为纵向“rails”,覆盖结构化 tracing、eval pipeline、prompt/tool versioning、drift detection、人类复核、权限与审计。 - 可信度:中;适合作为产业栈地图,不作为事实唯一来源。 - 后续核验:需用 LangSmith/Langfuse/Phoenix/OpenTelemetry/OpenInference 等官方文档校对工具分类。

  4. Runtime Verification for AI Agents in 2026: Policies, Sandboxes, and Safe Execution - 作者 / 专栏:Ankur Yadav / The Backend Developer - 链接:https://thebackenddevelopers.substack.com/p/runtime-verification-for-ai-agents - 发布时间:2026-05-05 - 核心观点:agent 安全从“模型听话”转向 runtime policy、sandbox、monitoring、replay、kill switch。 - 可信度:中;工程叙事清晰,但需官方/论文补强。 - 后续核验:应与 Microsoft Security、NIST/CAISI、OWASP LLM Top 10、arXiv 安全文献交叉验证。

  5. OpenClaw Design Patterns (Part 5 of 7): Reliability & Security Patterns - 作者 / 专栏:Ken Huang / Ken Huang Substack - 链接:https://kenhuangus.substack.com/p/openclaw-design-patterns-part-5-of - 发布时间:2026-03-09 - 核心观点:面向生产 agent 的 reliability / security design patterns。 - 可信度:中;可能有生态相关性,但需避免把生态宣传当研究证据。 - 后续核验:如收入库,应只作为设计模式线索,优先核验对应实现、issue、文档。

  6. LLM predictions for 2026, shared with Oxide and Friends - 作者 / 专栏:Simon Willison / Simon Willison’s Weblog on Substack - 链接:https://simonw.substack.com/p/llm-predictions-for-2026-shared-with - 发布时间:2026-01-09 - 核心观点:coding agent 能力、风险事件与工程实践趋势预测。 - 可信度:中上;作者长期有实测记录,但预测类内容需降权。 - 后续核验:只作趋势观察,不作为事实型结论。


3. 分类覆盖检查

3.1 agent:强覆盖

主要来源:Tom、Jay、Spark。

覆盖内容:

  • Agent memory:MAGE、MRAgent、Memory Survey、Memanto、OpenViking、Hermes-agent。
  • Long-horizon / personal assistant eval:π-Bench、OpenComputer、MemoryArena/MemBench 等。
  • Multi-agent engineering:LangGraph / CrewAI / AutoGen CSDN 候选,GitHub agent ecosystem。
  • Runtime reliability:Spark 的 AI Agent Reliability、Foundry agent stack、LogicalRAG、Substack reliability 观察。
  • Agent systems/security:本轮补充 arXiv execution provenance、Microsoft Semantic Kernel RCE/prompt-injection case、Perplexity/NIST RFI security considerations。

判断:强覆盖,但 agent security / runtime enforcement / observability 应从“缺口”升级为下一轮独立专题,而不是散落在 Agent/RAG 主题里。

3.2 rag:强覆盖

主要来源:Tom、Jay、Spark。

覆盖内容:

  • 学术:Efficient RAG、Leakage-Free RAG Evaluation、LogicalRAG、Agentic RAG vs traditional RAG、RAGCap/RAGPerf 等。
  • 工程:vector DB 选型、Agentic Retrieval in Foundry Local、DeepSeek + 本地知识库、GraphRAG / Agentic RAG CSDN 候选。
  • 风险:RAG benchmark leakage、CSDN 全文证据不足、向量数据库版本号不一致。

判断:强覆盖;建议合并成 rag-evaluation-and-leakageagentic-rag-and-knowledge-planevector-db-engineering 三条线。

3.3 multimodal:中强覆盖,工程侧缺口仍在

主要来源:Flyp,Jay/Spark 间接补充。

覆盖内容:

  • Audio Flamingo Next、AudioX:音频理解/生成。
  • Bernini:视频生成与语义规划。
  • EMMA:多模态推理 benchmark。
  • Urban Perception reliability-aware VLM benchmark。
  • RTP-LLM 多模态解耦处理:系统侧补充。

判断:学术覆盖达标,但工程侧仍缺:

  • 多模态推理/部署 GitHub 仓库与官方代码核验。
  • 文档 OCR / Document VLM / GUI agent 真实工程案例。
  • CSDN 高质量多模态复现文,Flyp 已明确本周未找到达标项。

3.4 systems:强覆盖,存在主题过密与重复

主要来源:Jay。

覆盖内容:

  • LLM serving:RTP-LLM、vLLM/TensorRT-LLM/SGLang benchmark、AIConfigurator、LLM Serving position paper、WAIT/Fluid-guided scheduling。
  • KV cache / speculative decoding:Tangram、MSA、OScaR、speculative decoding latency model、Cats self-speculative。
  • Cloud-native:llm-d、K8s Operator、k0smos、Portworx/KubeCon/KubeVirt。
  • Database / backend:Booster、HIRE、Hyra、LeaseGuard、ByteHouse、Valkey/Redis survey、AI-for-DB。
  • CUDA/kernel/storage:GEMM profiling、automated kernel generation survey、RocksDB migration、NVIDIA CompileIQ。

判断:强覆盖但过密。同步任务应先做主题归并,避免同一主题在 registry 中重复散落。

3.5 engineering:强覆盖,质量分层很重要

主要来源:Jay、Spark、Tom。

高价值工程来源:

  • 官方文档/博客:vLLM docs、Microsoft Foundry/Learn、Microsoft Security、NVIDIA Developer、Ollama、HF、CNCF。
  • 生产/实测文章:RTP-LLM、Lusera GEMM profiling、Helius RocksDB migration、CSDN llama.cpp/GGML/vLLM 源码调试候选。
  • 工程路线图/观察:Substack 只作为候选线索,不直接作为证据主源。

判断:覆盖强;建议按“官方/论文/代码 > 生产实测 > 高质量中文复现 > 行业观察/榜单”排序入库。

3.6 csdn:数量强覆盖,质量需严格筛

主要来源:Jay,Spark 有 1 条候选。

可优先审稿的 CSDN 方向:

  • GGML / llama.cpp 源码调试(CUDA、cmake、GDB/LLDB)。
  • vLLM 源码解析与 nano-vllm 对照。
  • DeepSeek 本地部署、vLLM 分布式推理、量化与 OOM 排障。
  • Multi-Agent 框架选型实战,若全文有版本、源码和真实陷阱。
  • 向量数据库 benchmark,前提是官方 release、数据集、硬件、脚本可核验。

应降级/待核验:

  • 仅搜索摘要获得、正文超时的 RAG/CSDN 条目。
  • 榜单、趋势泛文、软文、无命令/无环境/无源码/无排障过程的文章。
  • 版本号存在疑点的向量数据库横评。

4. 候选条目(跨实例合并视角)

Agent / RAG

  1. MAGE:Memory as Execution State Management for Long-Horizon Agents - 来源:Tom / arXiv - 分类:agent, memory, long-horizon - 协调判断:保留;与 MRAgent、Memory Survey 合并为 Agent Memory 主轴。

  2. MRAgent:Memory is Reconstructed, Not Retrieved - 来源:Tom / arXiv - 分类:agent, memory, graph-memory - 协调判断:保留;突出“重构式记忆”而不是简单向量检索。

  3. π-Bench + OpenComputer - 来源:Tom / arXiv/HF - 分类:agent, evaluation, personal assistant, computer-use - 协调判断:保留;适合更新 long-horizon / computer-use eval 主题页。

  4. LogicalRAG:Rethinking Agentic RAG - 来源:Spark / arXiv - 分类:agentic-rag, logical-retrieval, runtime-reliability - 协调判断:保留;与 Jay 的 Agentic RAG 工程候选区分,优先论文。

  5. Leakage-Free Benchmark for Robust RAG Evaluation - 来源:Jay / arXiv - 分类:rag, evaluation, benchmark leakage - 协调判断:保留;RAG 评测方法论高价值。

  6. OpenViking / Hermes-agent / GitHub agent tooling - 来源:Tom/Jay / GitHub - 分类:agent tooling, memory, open-source - 协调判断:候选;需要直接核验 README、release、commit、敏感配置示例是否脱敏。

Systems / Engineering

  1. RTP-LLM:阿里巴巴工业级推理引擎 - 来源:Jay / arXiv - 分类:llm-serving, disaggregation, kv-cache, production - 协调判断:高价值;建议作为 LLM serving 主题页核心。

  2. AIConfigurator + LLM Serving Position Paper + WAIT/Fluid-guided scheduling - 来源:Jay / arXiv - 分类:llm-serving, scheduling, auto-tuning, benchmark - 协调判断:合并阅读;不要分散写成无关系条目。

  3. Tangram / MSA / OScaR / Speculative Decoding latency model / Cats - 来源:Jay / arXiv - 分类:kv-cache, speculative-decoding, edge-inference - 协调判断:保留为 KV Cache / Speculative Decoding 专题候选。

  4. vLLM 官方 Optimization Configuration

    • 来源:Jay / 官方文档
    • 分类:vllm, optimization, engineering-practice
    • 协调判断:高价值;可直接进入工程知识条目。
  5. Microsoft “Prompts become shells” Semantic Kernel RCE case

    • 来源:本轮补充 / Microsoft Security Blog
    • 分类:agent-security, prompt-injection, RCE, tool-use
    • 协调判断:高价值补漏;官方安全案例,建议下一轮单独精读。
  6. From Agent Traces to Trust: Evidence Tracing and Execution Provenance in LLM Agents

    • 来源:本轮补充 / arXiv
    • 分类:agent-observability, provenance, execution-tracing
    • 协调判断:高价值补漏;可与 Spark reliability 主题合并。
  7. Security Considerations for AI Agents / NIST-CAISI RFI response

    • 来源:本轮补充 / arXiv
    • 分类:agent-security, threat-modeling, supply-chain, sandbox
    • 协调判断:高价值补漏;适合作安全专题背景。
  8. Booster / HIRE / Hyra / LeaseGuard / ByteHouse / Valkey survey

    • 来源:Jay / SIGMOD、arXiv、PDF
    • 分类:database, AI-for-DB, cloud-native database
    • 协调判断:保留;但 SIGMOD 页面条目需逐条确认标题、作者、论文状态。
  9. Lusera GEMM profiling + Helius RocksDB migration + K8s Operator 十年复盘

    • 来源:Jay / 技术博客
    • 分类:systems, engineering, profiling, storage, k8s
    • 协调判断:工程价值高;有真实数据/工具/迁移经验,优先级高于泛趋势文。

Multimodal

  1. Audio Flamingo Next / AudioX / Bernini / EMMA / VLM urban benchmark
    • 来源:Flyp / arXiv/OpenReview
    • 分类:multimodal, audio, video, reasoning, benchmark
    • 协调判断:保留;EMMA 必须标注 OpenReview 投稿/状态,不能误写 accepted。

CSDN

  1. GGML / llama.cpp CUDA 源码调试

    • 来源:Jay / CSDN
    • 分类:csdn, cuda, ggml, llama.cpp, source-debug
    • 协调判断:优先审稿;符合“命令/环境/源码/调试链路”方向。
  2. vLLM 源码解析与 nano-vllm 对照

    • 来源:Jay / CSDN
    • 分类:csdn, vllm, source-analysis
    • 协调判断:优先审稿;适合作中文源码导读。
  3. DeepSeek 本地部署 / vLLM 分布式 / 量化 / OOM 排障

    • 来源:Jay / CSDN
    • 分类:csdn, local-deploy, vllm, quantization, troubleshooting
    • 协调判断:候选;需确认模型版本、硬件、命令、错误栈是否完整。
  4. CSDN Multi-Agent 与 Vector DB benchmark

    • 来源:Jay / CSDN
    • 分类:csdn, multi-agent, vector-db, benchmark
    • 协调判断:待核验;版本号与 benchmark 细节必须校正后才能升高权重。

5. 高价值条目(建议优先入审稿队列)

  1. Agent Reliability 主轴 - 条目:Towards a Science of AI Agent Reliability、Beyond pass@1、From Agent Traces to Trust、Spark 的 runtime reliability 草稿。 - 原因:补齐午间缺口,能把 agent eval 从 pass@1/成功率推进到 consistency / robustness / predictability / safety / provenance。 - 动作:精读 + 建主题页 agent-runtime-reliability-and-observability.md

  2. Agent Security 主轴 - 条目:Microsoft Semantic Kernel RCE / “Prompts become shells”、Security Considerations for AI Agents、NIST/CAISI 相关材料、Substack runtime verification 线索。 - 原因:工具调用与 prompt injection 已从内容风险升级为代码执行/供应链/身份权限风险。 - 动作:精读 + 建主题页 agent-security-tool-use-and-sandboxing.md

  3. Agent Memory / Agentic RAG 主轴 - 条目:MAGE、MRAgent、Memory Survey、LogicalRAG、Efficient RAG、Leakage-Free RAG Evaluation。 - 原因:Tom/Spark/Jay 形成互补:记忆机制、检索控制、评测泄漏、生产知识平面。 - 动作:精读 + 更新 agent-memory.mdagentic-rag-and-knowledge-plane.md

  4. LLM Serving / KV Cache / Disaggregated Inference 主轴 - 条目:RTP-LLM、AIConfigurator、Tangram、Speculative Decoding latency model、vLLM Optimization docs、WAIT scheduling。 - 原因:Jay 今天覆盖非常强,但主题重复多;应合并成系统专题。 - 动作:精读 + 更新 llm-inference-systems.mdkv-cache-and-speculative-decoding.md

  5. AI-for-DB / Cloud-native Database 主轴 - 条目:Booster、HIRE、Hyra、LeaseGuard、ByteHouse、Cloud-native Databases Survey、Valkey/Redis survey。 - 原因:数据库方向有顶会/工业系统/综述三类材料。 - 动作:精读 Booster/LeaseGuard/ByteHouse,审稿 SIGMOD 2026 条目。

  6. Multimodal 学术主轴 - 条目:Audio Flamingo Next、AudioX、Bernini、EMMA、Reliability-aware urban VLM benchmark。 - 原因:Flyp 补足多模态分类,但仍需状态核验与代码链接。 - 动作:精读 Top 3;审稿 OpenReview 状态与代码可用性。

  7. CSDN 源码/部署/排障主轴 - 条目:GGML / llama.cpp / vLLM 源码调试,DeepSeek 部署排障。 - 原因:相比泛综述,这些更符合 CSDN 高价值筛选标准。 - 动作:人工全文核验后进入 csdn-review-queue.md


6. 去重与合并建议

6.1 Agent / RAG

建议合并为四条主题线:

  • agent-memory.md:MAGE、MRAgent、Memory Survey、Memanto、OpenViking。
  • long-horizon-agent-evaluation.md:π-Bench、OpenComputer、MemoryArena/MemBench、Beyond pass@1。
  • agentic-rag-and-knowledge-plane.md:LogicalRAG、Efficient RAG、Foundry Agentic Retrieval、GraphRAG/Agentic RAG 工程候选。
  • rag-evaluation-and-leakage.md:Leakage-Free RAG Evaluation、RAGPerf、RAGCap、评测泄漏问题。

6.2 Systems

Jay 的推理系统材料建议拆为:

  • llm-inference-systems.md
  • kv-cache-and-speculative-decoding.md
  • cloud-native-llm-serving.md
  • serving-scheduling-and-auto-tuning.md

不要把 vLLM vs SGLang benchmarkRTP-LLMAIConfiguratorWAIT 全部写入同一松散页面;它们分别对应生产架构、配置自动化、调度理论、KV 优化。

6.3 CSDN

建议建立三层队列:

  • accepted-csdn:已确认全文具备环境、版本、命令、源码、真实排障或 benchmark 脚本。
  • csdn-review:摘要看起来有价值但全文/版本/脚本待确认。
  • csdn-rejected:榜单、软文、泛趋势、无复现细节。

7. 缺口清单

  1. Multimodal engineering:Flyp 的论文覆盖不错,但缺官方代码、HF demo、推理脚本、部署/微调实践与 CSDN 高质量复现。
  2. Agent security 深水区:已有补漏候选,但还需要系统检索 OWASP、NIST/CAISI、Microsoft、Anthropic/OpenAI system card、浏览器 agent prompt injection。
  3. Observability 工具体系:需核验 LangSmith、Langfuse、Phoenix/OpenInference、OpenTelemetry、Braintrust、Promptfoo、DeepEval 的官方能力,不要只依赖 Substack 栈图。
  4. GitHub trending 真实性/版本核验:Jay 多个 GitHub 热榜条目的 stars、release、活跃度、是否真实上榜需要直接查 GitHub。
  5. CSDN 全文证据:部分条目仍是搜索摘要或页面超时,不能入高价值库。
  6. SIGMOD 2026 页面条目:Jay 的 SIGMOD 候选需要逐条核对官方标题、作者、论文链接和是否已公开全文。

8. 冲突 / 需要人工确认的问题

  1. 午间 Stephen 判断已过期:午间稿写 Spark 无研究简报;晚间 Spark 已产出 agentic-rag-runtime-reliability,应以晚间稿为准。
  2. Flyp 合规声明问题:Flyp 仍需明确是否读取其他实例目录;若未读,由 Stephen 总协调稿补足跨实例去重,但 Flyp 自身后续应修正流程。
  3. OpenReview 状态:EMMA 不能从“投稿”误写为“接收”;必须核验 OpenReview 状态。
  4. CSDN 版本号疑点:Milvus/Qdrant/Weaviate/Pinecone 等版本与 benchmark 数据需官方 release / commit 校验。
  5. GitHub star / trending 数据mvanhorn/last30days-skillapple/containerhermes-agent 等条目需要直接核 GitHub,防止热榜摘要或星数失真。
  6. Substack 权重:Substack 只作线索/洞察,不应替代论文、官方文档、代码或 CVE/安全公告。
  7. Microsoft Security case:Semantic Kernel CVE 条目价值高,但入库前需确认 CVE 编号、修复版本、受影响配置,不要只写攻击叙事。
  8. Apple container 文件名拼写:Jay 文件名为 systems-engineing-benchmarks-apple-container.mdengineing 似为拼写错误;不影响内容,但同步时建议规范路径。

9. 分类标签建议

agent
agent-memory
agent-evaluation
agent-runtime-reliability
agent-observability
agent-security
tool-use-security
prompt-injection
sandboxing
execution-provenance
agentic-rag
logical-retrieval
rag-evaluation
benchmark-leakage
vector-database
multimodal
multimodal-reasoning
audio-generation
video-generation
vlm
llm-serving
kv-cache
speculative-decoding
disaggregated-inference
serving-scheduling
auto-tuning
cloud-native-ai
kubernetes
AI-for-DB
database-systems
cuda
kernel-optimization
storage-engineering
csdn-candidate
needs-fulltext-verification
needs-release-verification
needs-security-advisory-verification
substack-watchlist

10. 建议写入路径

10.1 本轮实际写入路径

/shared/research-kb/inbox/stephen/2026-06-10-stephen-coordination-check-evening.md

10.2 后续串行同步建议路径(本轮未写入)

/shared/research-kb/review/stephen/2026-06-10-evening-coordination-check.md
research-kb/topics/agent-memory.md
research-kb/topics/long-horizon-agent-evaluation.md
research-kb/topics/agent-runtime-reliability-and-observability.md
research-kb/topics/agent-security-tool-use-and-sandboxing.md
research-kb/topics/agentic-rag-and-knowledge-plane.md
research-kb/topics/rag-evaluation-and-leakage.md
research-kb/topics/vector-db-engineering.md
research-kb/topics/llm-inference-systems.md
research-kb/topics/kv-cache-and-speculative-decoding.md
research-kb/topics/serving-scheduling-and-auto-tuning.md
research-kb/topics/cloud-native-llm-serving.md
research-kb/topics/ai-for-db.md
research-kb/topics/multimodal-reasoning.md
research-kb/topics/csdn-review-queue.md
research-kb/metadata/substack-watchlist-2026-06-10.jsonl

11. 是否需要精读 / 审稿 / 主题页更新

必须精读

  • MAGE、MRAgent、Memory Survey、LogicalRAG。
  • Towards a Science of AI Agent Reliability、From Agent Traces to Trust、Beyond pass@1。
  • Microsoft “Prompts become shells” / Semantic Kernel CVE case。
  • RTP-LLM、AIConfigurator、WAIT / Fluid-guided scheduling。
  • Booster、LeaseGuard、ByteHouse。
  • Audio Flamingo Next、Bernini、AudioX。

必须审稿 / 核验

  • CSDN 源码调试与部署排障候选全文。
  • 向量数据库版本号、benchmark 数据集、硬件、脚本。
  • GitHub trending 条目的 stars、release、commit、license。
  • SIGMOD 2026 页面条目标题/作者/录用状态。
  • OpenReview / ICLR 2026 状态。
  • Substack 文章引用链与原始证据。
  • Semantic Kernel CVE 编号与修复版本。

建议主题页更新

  • agent-memory.md
  • long-horizon-agent-evaluation.md
  • agent-runtime-reliability-and-observability.md
  • agent-security-tool-use-and-sandboxing.md
  • agentic-rag-and-knowledge-plane.md
  • rag-evaluation-and-leakage.md
  • llm-inference-systems.md
  • kv-cache-and-speculative-decoding.md
  • ai-for-db.md
  • multimodal-reasoning.md
  • csdn-review-queue.md

12. 协调结论

  • 今日六类覆盖全部达标:agentragsystemsengineering 强覆盖;csdn 数量强但必须严格审稿;multimodal 学术覆盖达标但工程实践偏薄。
  • 晚间新增 Spark 明显补上了 agent runtime reliability;本轮补充检索又补入 agent security / observability 方向,建议下一轮由 Spark 或 Tom 继续做安全与可观测性专题。
  • Jay 产出密集,价值高但重复也多;同步任务应先主题归并,再写 registry,避免同一概念多处重复。
  • Substack 已按新规则纳入候选并记录作者、专栏、链接、发布时间、核心观点、可信度与后续核验动作;所有 Substack 内容仅作中文摘要和线索,不复制长段原文。
  • 本轮没有执行任何 GitHub 写入动作。