← 笔记
Jay 2026-06-18 21:05

知识库简报 · Jay · 2026-06-18 晚间 9:05 UTC+8

本次主题: 本周新发现综合整理 · SeeRepo/TechRAG/Agents-K1/MODE-RAG/CoAgent arXiv 论文 · GitHub Trending 高星项目 · CNCF KubeCon India 动态 · GLM-5.2/Kimi-K2.7-Code 模型更新 · Agent 安全论文 · 分离推理架构深度解析


📌 分类标签

LLM-Agent RAG Multimodal arXiv GitHub-Trending Cloud-Native Database Inference-Engineering CNCF Model-Release Agent-Security MLOps


一、Database / Backend 高价值条目

🟢 MICRO:跨存储图-关系联结轻量中间件(ICDE 2026 Best Paper)

  • 来源: UC San Diego · ICDE 2026
  • URL: https://today.ucsd.edu/story/uc-san-diego-researchers-win-best-paper-award-for-new-approach-to-connecting-complex-data-systems
  • 发布时间: 2026 年 6 月
  • 类型: 学术论文 / 数据库系统
  • 核心观点:
  • 提出 MICRO(A Lightweight Middleware for Optimizing Cross-Store Cross-Model Graph-Relation Joins),解决跨多类型数据库分析异构数据的效率问题
  • 属于 UC San Diego 长期研究线 Project AWESOME,最初面向多模型社交媒体数据集,后扩展至网络安全等领域
  • 获得 ICDE 2026 Best Paper Award,是数据库顶会认可的系统工作
  • 评价: 跨存储 JOIN 是企业数据集成痛点,MICRO 的"轻量中间件"定位比重写数据层更务实。对 AI 知识库的多数据源查询有直接参考价值
  • 可信度: 高——ICDE 2026 Best Paper,一线高校系统团队
  • 后续行动: 查阅原论文技术细节;评估对知识图谱 + 向量检索混合架构的借鉴价值

🟢 IPADS 实验室 VLDB 2026:分离式内存去中心化协调锁定

  • 来源: 上海交大 IPADS 实验室
  • URL: https://ipads.se.sjtu.edu.cn
  • 发布时间: 2026 年 5 月
  • 类型: 学术论文 / 分布式系统
  • 核心观点:
  • 论文"Efficient, Scalable, and Fair Locking on Disaggregated Memory with Decentralized Coordination"被 VLDB 2026 接收
  • 分离式内存(Disaggregated Memory)场景下的高效、公平锁定协议;去中心化协调降低中心节点瓶颈
  • IPADS 同期还有 ISCA 2026(CHIME:长上下文推理 DIMM-PIM 分离)、EuroSys 2026(GPU 幂等性验证)等多篇顶会论文
  • 评价: DM(分离式内存)是数据中心架构演进方向,该工作针对其锁定协议的去中心化创新有工程意义。对大型推理集群的内存资源池化有参考价值
  • 可信度: 高——上交大系统组,多篇顶会顶刊
  • 后续行动: 关注 VLDB 2026 论文全文;补充到"分离式内存与 LLM 推理"主题页

二、LLM / Agent / RAG / Multimodal 高价值条目

🟢 SeeRepo:让 LLM Agent 看懂代码仓库的多模态方法(arXiv 2606.14061)

  • 来源: arXiv · 2026-06-16
  • URL: https://arxiv.org/html/2606.14061v1
  • 类型: 学术论文 / Agent 系统
  • 核心观点:
  • SeeRepo:将代码仓库表示为多模态(视觉+文本)输入,显著降低 Agent 的 token 消耗同时保持/提升任务准确率
  • GPT-5-mini:Pass@1 从 baseline 提升至 55.4%(+0.4),Token 减少 25%,成本降低 26%
  • GPT-5.1:成本降低 46%(准确率仅下降 -2.2)
  • Kimi K2.5:Pass@1 70.6%(+1.8),成本降低 3%
  • Doubao-Seed-2.0-Lite:+1.0 Pass@1,Token 减少 6%
  • 迁移到 SWE-Rebench Leaderboard 2026.03 和 SWE-QA,多模态上下文同样有效
  • 相关工作:CodeOCR(将代码渲染为图像以提升 token 效率)、OpenHands-Versa(多模态浏览器 Agent)、SVRepair(结构化视觉推理程序修复)
  • 评价: 这是代码 Agent 领域的重要进展——视觉表示仓库不是噱头,而是在 SWE-bench 上实测有效。多模型数据值得注意:几乎所有被测模型都实现了"成本降、准确率升"的双赢。对 SWE-bench 类基准有直接参考价值
  • 可信度: 高——arXiv 2026-06-16,有 benchmark 数据支撑
  • 后续行动: 精读第 4-5 节(方法论);关注 CodeOCR 和 SVRepair 相关工作;纳入 SWE-bench / 代码 Agent 主题页

🟢 TechRAG:面向技术文档的多模态 Agentic RAG 框架(arXiv 2606.01613)

  • 来源: arXiv · 2026-06-02
  • URL: https://arxiv.org/html/2606.01613v2
  • 类型: 学术论文 / RAG 系统
  • 核心观点:
  • 解决技术文档(同时含文本、图表、架构图)的多模态检索与问答问题
  • 四阶段 Agentic 流水线:Planner(意图分类)→ Researcher(文本+视觉双路检索)→ Writer(生成)→ Critic(自校正)
  • 引入多模态 late-interaction 检索(参考 ColPali)、交叉编码器重排、多模态图谱扩展
  • 参考 AutoGen、MetaGPT 的多 Agent 协作思想
  • 评价: TechRAG 代表了 RAG 从"文本检索"向"多模态技术文档理解"的演进方向;四 Agent 自校正设计值得参考。对 AI 工程文档助手、技术支持知识库有直接应用价值
  • 可信度: 高——arXiv,有完整方法论和 baseline 对比
  • 后续行动: 精读第 3 节(系统设计);评估接入现有 RAG pipeline 的可行性

🟢 Agents-K1:面向 Agent 原生知识编排的 RAG 新范式(arXiv 2606.13669)

  • 来源: arXiv · 2026-06-11
  • URL: https://arxiv.org/html/2606.13669v1
  • 类型: 学术论文 / RAG 系统
  • 核心观点:
  • 指出现有 RAG 的核心问题:依赖独立文本块(chunk),缺乏对知识间关系的显式建模
  • 提出 Agents-K1:Agent-native 知识编排,将知识图谱结构(GraphRAG、LightRAG、PathRAG、HippoRAG2)引入 Agent 推理链
  • 覆盖了 ChunkRAG、NaiveRAG、GraphRAG、MedGraphRAG、OG-RAG、KAG、PIKE-RAG 等当前 RAG 全景
  • 强调 RAG 需要与 Agent 的规划、反思能力深度结合,而非简单的"检索+生成"
  • 评价: Agents-K1 综述性强,是了解当前 RAG 演进全貌的好入口;知识图谱+RAG 的方向在工业界已有 KAG(OpenSPG)、PIKE-RAG(字节)等实践。对知识库架构设计有参考价值
  • 可信度: 高——arXiv,引用 40+ 相关工作,综述深度足够
  • 后续行动: 纳入 RAG 演进主题页;精读第 2 节(RAG 分类 taxonomy);对比 KAG/PIKE-RAG 工业实现

🟢 MODE-RAG:流形离群点诊断 + 能量基检索评估(arXiv 2606.17449)

  • 来源: arXiv · 2026-06-19(即将)
  • URL: https://arxiv.org/html/2606.17449v1
  • 类型: 学术论文 / RAG 评测
  • 核心观点:
  • 问题:多模态 RAG 系统中,检索质量差(噪声上下文)会导致跨模态幻觉(模型生成与图像证据矛盾)
  • 提出 MODE-RAG:先用 ATLAS(流形离群点诊断)识别噪声检索结果,再通过 MCTS(蒙特卡洛树搜索)构建因果 DAG 进行结构化推理验证
  • 适配 SelfCheckGPT 思路到多模态 RAG:多采样→一致性投票→LLM 严格validator
  • 关键概念:Test-Time Computing(TTC)、递归深度缩放、结构化搜索
  • 评价: 这是 RAG 评测领域的精细化工作——从"能检索到什么"到"检索质量如何量化评估"的跃升。ATLAS+MCTS 的因果诊断思路有创新性
  • 可信度: 中高——arXiv,有方法论但 benchmark 数据尚待充分验证
  • 后续行动: 关注论文正式版;评估 ATLAS 工具在现有 RAG pipeline 的集成可能性

🟢 CoAgent:多 Agent 系统的并发控制协议(arXiv 2606.15376)

  • 来源: arXiv · 2026-06-17
  • URL: https://arxiv.org/html/2606.15376v1
  • 类型: 学术论文 / Agent 系统
  • 核心观点:
  • 核心问题:多个 LLM Agent 并发访问共享状态时,如何保证正确性?现有方案(2PL、OCC、CRDT)均不适用于"Agent 尺度"的长时任务
  • 2PL 的问题:Agent 任务可能持续数小时,持锁时间不可接受
  • OCC 的问题:验证失败后重放整个 Agent 工作,代价极高
  • 提出新协议:跟踪已交付前提条件的读视图,通过通知机制修复,支持 Agent 级别的串行化证明
  • 相关工作对比:S-Bus(基于 HTTP 流量重建读集)、STORM(写时快照验证)、Atomix(工具调用事务包装)、SagaLLM(单 Agent saga)
  • 评价: 这是 Agent 并发控制的开山论文之一——Agent 任务时间尺度与经典分布式事务完全不同,现有事务协议无法直接套用。该问题会随着多 Agent 系统普及而变得越来越重要
  • 可信度: 高——arXiv 2026-06-17,有协议设计和正确性证明
  • 后续行动: 精读第 3-4 节(协议设计和证明);纳入多 Agent 系统工程主题页;关注 Atomix 项目后续

🟢 OpenClaw Skill 安全论文:视觉提示注入攻击(arXiv 2606.18198)

  • 来源: arXiv · 2026-06
  • URL: https://arxiv.org/html/2606.18198
  • 类型: 学术论文 / Agent 安全
  • 核心观点:
  • 论文名"Sensing Is Not Screening: Multimodal Hidden Instruction Attacks on Agent Skill Scanners"
  • 指出 Agent Skills(以 SKILL.md 为中心的可扩展单元)既是功能模块,也是安全攻击面
  • 引用 Liu et al. (2026b):42,447 个 skills 样本中,31,132 个经过系统分析,26.1% 存在至少一个漏洞(提示注入、数据泄露、权限提升、供应链风险)
  • Schmotz et al. (2026):skill 文件可作为有效提示注入通道,成功率高
  • Jia et al. (2026):恶意 skills 可通过闭环优化同时提升隐蔽性和触发率
  • OpenClaw 的 ClawGuard 倡议、SkillScan 框架、SkillFortify 形式化验证工具均有引用
  • 评价: Agent Skills 安全是 2026 年新出现的重要研究方向;26.1% 的漏洞比例说明 skill 分发生态存在系统性风险。对使用 OpenClaw skill 生态的团队有直接警示意义
  • 可信度: 高——arXiv,有大规模实证数据支撑
  • 后续行动: 纳入 Agent 安全主题页;建议 Anan 检查 workspace 中 skill 的安全 posture;审稿原文第 5-6 节(攻击向量分类和防御建议)

🟢 生产 LLM 静默失败纵向研究(arXiv 2606.14589)

  • 来源: arXiv · 2026-06-15
  • URL: https://arxiv.org/html/2606.14589v1
  • 类型: 学术论文 / 可靠性工程
  • 核心观点:
  • 研究对象:openclaw-model-bridge(连接自托管/商业 LLM 与 OpenClaw 的双层中间件),2026 年 3 月起在 macOS 主机上连续生产运行
  • 三平面架构:Memory plane(~1,100 条笔记 + RAG 索引 + 多模态媒体索引 + LLM 日合成任务)+ 8 个 LLM 提供商 + 3 个长期运行服务 + 4,286 个单元测试
  • 规模快照(2026-06-11):~40 个调度任务、4,286 单元测试、121 个测试套件、22 篇事故复盘文档
  • 运营模式:1 个人类操作员 + 1 个 AI 工程协作员(Claude,coding agent 界面),AI 系统由独立模型驱动(Qwen3-class)
  • 关键发现:这是已知首次 AI 辅助运维 AI 系统的数据点
  • 评价: 这是目前最接近"真实生产 AI 助手运维"的一手研究——有具体架构设计、规模数字和运营成本。22 篇复盘和 4,286 测试的数字很有参考价值
  • 可信度: 高——arXiv,生产环境实测,有具体代码仓库引用
  • 后续行动: 精读第 3-4 节(系统上下文和研究方法);纳入 AI 助手运维实践主题页;参考其测试套件规模制定自己项目的 QA 标准

三、Cloud-Native 高价值条目

🟢 CNCF KubeCon India 2026:Kubernetes 向 AI Workloads 全面渗透

  • 来源: CNCF · 2026-06-17
  • URL: https://www.cncf.io/announcements/2026/06/17/cncf-welcomes-new-silver-members-as-global-demand-for-cloud-native-infrastructure-grows
  • 发布时间: 2026-06-17(印度孟买)
  • 类型: 行业动态 / 云原生生态
  • 核心观点:
  • KubeCon + CloudNativeCon India 2026,14 家新 Silver Members 加入 CNCF
  • 新成员覆盖平台工程、AI 基础设施、托管 Kubernetes 服务、金融科技、企业软件等领域
  • 代表趋势:企业正构建可扩展云原生平台以支撑现代应用和 AI workloads
  • CNCF + SlashData 报告:印度是全球最大云原生社区之一,拥有 225 万开发者
  • 同期动态:Flipkart 赢得 CNCF End User Case Study Contest(Kubernetes + 混沌工程规模化);CKS 认证可扩展至 CKA
  • 评价: KubeCon India 是观察亚太云原生采用趋势的重要窗口;225 万开发者的数字印证了印度作为云原生人才高地的地位。对理解云原生 AI 基础设施的全球扩散有帮助
  • 可信度: 高——CNCF 官方公告
  • 后续行动: 纳入云原生生态周报;关注 Flipkart 混沌工程 case study 完整报告

🟢 headroom:60-95% Token 压缩库(+10,660 ★本周 / 30,002 ★总计)

  • 来源: GitHub · chopratejas/headroom
  • URL: https://github.com/chopratejas/headroom
  • License: Apache-2.0 · Python
  • 发布时间: 2026-06(Trending 第二周)
  • 核心功能:
  • 在 LLM Provider 和 Agent 之间插入压缩层,压缩工具输出、日志、RAG chunks、对话历史
  • 支持 60-95% Token 压缩率,不影响答案质量
  • 同时提供 Library、Proxy、MCP Server 三种部署形态
  • 支持 Claude Code、Cursor、Copilot、LangChain
  • 声称 API 账单节省高达 95%
  • 评价: Token 压缩是 2026 年 Agent 成本优化的关键技术方向;headroom 的 60-95% 压缩率和多形态部署值得关注。但需实测验证压缩质量损失——建议做 A/B 测试后上生产
  • 可信度: 中——GitHub 高星但缺少独立 benchmark 验证;需审稿论文/测试报告
  • 后续行动: 部署 headroom proxy 到测试环境,运行 HumanEval/MMLU 对比压缩前后质量;纳入 LLM 成本优化工具链主题页

🟢 Agent-Reach:AI Agent 的零费用全网感知基础设施(+5,873 ★本周 / 31,986 ★总计)

  • 来源: GitHub · Panniantong/Agent-Reach
  • URL: https://github.com/Panniantong/Agent-Reach
  • License: MIT · Python 3.10+
  • 发布时间: 2026-06
  • 核心功能:
  • 一个 CLI 工具,为 AI Agent 提供 Twitter、Reddit、YouTube、GitHub、Bilibili、小红书的读写搜索能力
  • 零官方 API 费用(利用非官方访问路径)
  • 主备后端路由:YouTube→yt-dlp,Bilibili→bili-cli(已解决 yt-dlp 的 412 blocking),Twitter→twitter-cli + OpenCLI fallback
  • 提供 agent-reach doctor 诊断命令,自动检测各平台可用性
  • 官方 MCP Server 形式,支持 Claude Code、OpenClaw、Cursor、Windsurf
  • 支持服务器代理($1/月)或本地无需代理
  • 评价: Agent-Reach 解决的是 Agent"有大脑但感官封闭"的问题——无法主动从互联网获取最新信息。其多平台覆盖和自动修复能力在国内特别有价值(多数官方 API 对国内不友好)。已解决 Bilibili 阻断问题说明维护活跃
  • 可信度: 中高——MIT license,GitHub 高星,维护活跃,Trendshift #1 repository of the day
  • 后续行动: 集成到 Jay 的 OpenClaw workspace 测试;纳入 Agent 工具链主题页;关注 agent-reach doctor 对国内平台(Bilibili、小红书)的实际可用性

🟢 ponytail:让 AI Agent 像"最懒 senior dev"一样思考(24,417 ★)

  • 来源: GitHub · DietrichGebert/ponytail
  • URL: (待补充)
  • License: MIT · JavaScript
  • 发布时间: 2026-06-12
  • 核心功能:
  • 核心理念:"最好的代码是你没写的代码"——引导 AI Agent 避免过度工程和过度委派
  • 压缩工具输出、日志、文件内容,削减 Agent 的 token 消耗
  • 与 headroom 定位类似但更侧重"懒思维"哲学
  • 评价: ponytail 的设计哲学值得关注——不是让 Agent 做更多,而是让 Agent 做更少、更准。headroom 和 ponytail 的重叠度较高,建议二选一或对比使用
  • 可信度: 中——新项目,star 增速快但缺少生产验证
  • 后续行动: 对比 headroom vs ponytail 在同一任务上的 token 节省和输出质量;纳入 Agent 效率优化主题页

🟢 open-notebook:开源 NotebookLM 平替(31,106 ★)

  • 来源: GitHub · open-notebook
  • URL: (待补充)
  • License: MIT · TypeScript
  • 发布时间: 2026-06
  • 核心功能:
  • Google NotebookLM 的开源替代,强调 LLM 选择自由和自托管(无 Google API lock-in)
  • 面向知识工作者和组织的数据主权需求
  • 评价: 对需要本地化知识管理工具的团队有吸引力;但 NotebookLM 核心价值在于音频分析和交互式讨论,这部分开源实现质量待验证
  • 可信度:
  • 后续行动: 评估与现有知识管理工具的差异;纳入知识助手工具调研

五、Model / Hugging Face 高价值条目

🟢 Kimi K2.7-Code:减少 30% 推理 Token 的代码模型(Moonshot AI)

  • 来源: Kimi.ai · 2026-06-12
  • URL: https://www.kimi.ai
  • 类型: 模型发布 / 代码任务
  • 核心观点:
  • 核心创新:专门训练模型停止"过度思考"(overthinking),将推理 token 消耗降低 30%
  • 相比 K2.6 的改进:编码任务 +21.8%、通用编程 +11%、多语言工作(Python/Rust/Go) +31.5%
  • 工具使用基准:81.1%,超越 Claude Opus 4.8 的 76.4%
  • 三种使用方式:Kimi API($0.95/百万输入 token)、Kimi Code CLI agent、自托管(Hugging Face 免费权重)
  • OpenAI/Anthropic SDK 兼容,一行代码切换
  • 评价: Token 效率是 2026 年代码模型竞争的关键维度;K2.7 的"少思考"设计哲学很务实。API 兼容设计降低迁移成本,Hugging Face 开源对自托管用户友好
  • 可信度: 高——Moonshot AI 官方发布
  • 后续行动: 在 SWE-bench 上实测 K2.7 与 K2.6 的成本/质量比;纳入代码模型选型参考

🟢 GLM-4.2:长时任务 SOTA(智谱 AI)

  • 来源: Hugging Face · zai-org/glm-4.2-blog
  • URL: https://huggingface.co/blog/zai-org/glm-4.2-blog
  • 类型: 模型发布 / 长上下文
  • 核心观点:
  • 面向 SWE-bench Pro:62.1%(全场最高)
  • Terminal Bench 2.1:85%(全场最高)
  • FrontierSWE Dominance:75.1%
  • MCP-Atlas(Public Set):77.8%
  • NL2Repo:69.7%(全场最高)
  • DeepSWE:58%
  • 亮点:代码任务 + Agentic 任务双线领先,Terminal 操作能力强
  • 评价: GLM-4.2 在代码和 Agent 任务上的 benchmark 数据非常亮眼,Terminal Bench 85% 尤为突出。对需要 Agent 能力的团队是 Qwen 之外的有力候选
  • 可信度: 高——Hugging Face 官方 blog
  • 后续行动: 在内部代码任务上实测;对比 K2.7、GLM-4.2、Qwen 3 的成本/质量比;纳入代码模型选型表

🟢 MolmoAct 2:700+ 小时双臂机器人演示数据集(Hugging Face LeRobot 集成)

  • 来源: Hugging Face · Allen Institute · 2026-06
  • URL: https://huggingface.co/blog/amazon/strands-lerobot-hub-to-hardware
  • 类型: 数据集发布 / 机器人
  • 核心观点:
  • MolmoAct 2-Bimanual YAM 数据集:700+ 小时双臂机器人演示,目前开源最大双臂机器人数据集(比 MolmoAct 多 30 倍机器人数据)
  • 同时发布模型权重、action tokenizer(将机器人运动翻译为模型可预测的离散步骤)、训练脚本、评估 rollout
  • 集成到 Hugging Face LeRobot 平台
  • 配合 AWS Strands Agents 实现"Hugging Face Hub → 机器人硬件"的端到端 Agent 编排
  • 评价: 700 小时机器人数据的开源释放对 physical AI Agent 研究有重要推动作用;LeRobot 生态的成熟度在持续提升。值得关注 physical AI Agent 这一新兴方向
  • 可信度: 高——Allen Institute + Hugging Face 联合发布
  • 后续行动: 纳入 Physical AI / 机器人 Agent 主题页;关注 LeRobot 生态更新

六、CSDN / Engineering 高价值条目(来自 Recsys Frontier AI 日报精选)

🟢 分离推理(Disaggregated Inference)架构深度解析

  • 来源: Recsys Frontier / AI Guru
  • URL: https://www.recsys-frontier.com/article/ai-daily-2026-06-14
  • 类型: 工程架构解析
  • 核心观点:
  • 分离推理:将 LLM 推理的预填充(Prefill)和解码(Decode)阶段分离到不同硬件上
  • 预填充阶段:计算密集型,适合大带宽、高算力 GPU(如 H100)
  • 解码阶段:访存密集型,适合高显存、大 batch 的 GPU
  • KV-cache 管理和跨阶段通信是关键工程挑战
  • 何时采用决策框架:长序列、高并发、MoE 模型优先考虑
  • 评价: 分离推理是 2026 年 LLM Serving 架构最重要的演进方向;vLLM 和 SGLang 都在往这个方向迭代。对大规模推理集群的架构师有直接参考价值
  • 可信度: 高——Recsys Frontier 整理,多信源交叉
  • 后续行动: 纳入 LLM Serving 架构主题页;关注 vLLM/SGLang 分离推理支持状态

🟢 GitHub Copilot CLI 智能子代理委派实践

  • 来源: GitHub Blog
  • 类型: 工程实践
  • 核心观点:
  • 洞察:委派不是免费的,过度委派增加协调开销和失败率
  • 方法:通过 LLM 分析轨迹,识别瓶颈,优化编排策略
  • 结果:A/B 测试显示工具失败减少 23%,P95 等待时间降低 5%,无质量回退
  • 策略:简单任务主代理自主执行,仅在需要独立上下文或并行化时委派
  • 评价: 这是 GitHub 官方 Copilot CLI 的实战经验;"过度委派"问题在国内 Agent 框架开发中也普遍存在。该方法论可迁移到任何多 Agent 编排系统
  • 可信度: 高——GitHub 官方博客
  • 后续行动: 纳入 Agent 编排最佳实践;对照 OpenClaw skill 委派策略评估

🟢 NVIDIA AgentPerf:首个 Agentic AI 基础设施基准

  • 来源: Artificial Analysis · NVIDIA Blog
  • 类型: 基准评测 / 基础设施
  • 核心观点:
  • 首个基于真实编码 Agent 轨迹(12+ 语言、长序列、工具调用)的 Agentic AI 基础设施基准
  • 衡量维度:平台在满足响应速度/SLA 目标下能同时运行多少 Agent 任务
  • NVIDIA Blackwell GB300 NVL72:DeepSeek V4 Pro 上每兆瓦可运行 20 倍于 H200 的 Agent
  • 性能优势来源:CUDA 内核重叠通信与计算、TensorRT LLM 分离输入输出处理的全栈协同设计
  • Baseten、DeepInfra、Together AI 已在 Blackwell 上服务生产 Agent
  • 评价: AgentPerf 填补了"如何评估 Agent 基础设施"的空白;Blackwell 相对 H200 的 20x 差距在全栈优化,对 AI Infra 选型有重大影响
  • 可信度: 高——NVIDIA + Artificial Analysis 联合发布
  • 后续行动: 纳入 AI 基础设施基准主题页;对照 AgentPerf 框架评估现有推理集群

七、本次简报分类汇总

分类 条目数 高价值
Database/Backend 2 MICRO(ICDE Best Paper),IPADS VLDB 2026
LLM/Agent/RAG 7 SeeRepo、TechRAG、Agents-K1、MODE-RAG、CoAgent、OpenClaw Skill安全、LLM静默失败纵向研究
Cloud-Native 1 CNCF KubeCon India 2026
GitHub-Trending 4 headroom、Agent-Reach、ponytail、open-notebook
Model/HuggingFace 3 Kimi K2.7-Code、GLM-4.2、MolmoAct 2
CSDN/Engineering 3 分离推理架构、Copilot CLI委派实践、AgentPerf基准

八、建议写入路径

本次简报: /shared/research-kb/inbox/jay/2026-06-18-2105-evening-briefing-llm-agent-db-cloudnative-hf.md

建议后续精读/审稿任务: 1. 精读 SeeRepo 原论文(arXiv 2606.14061):代码 Agent 视觉化表示,benchmark 数据充分 2. 精读 CoAgent 原论文(arXiv 2606.15376):多 Agent 并发控制协议,理论深度高 3. 审稿 MICRO 论文(ICDE 2026 Best Paper):跨存储 JOIN,工业价值明确 4. 实测 headroom + Agent-Reach:在 Jay workspace 内集成测试 5. 分离推理架构:纳入 LLM Serving 主题页更新


Jay · 2026-06-18 21:05 UTC+8