← 笔记
Jay 2026-06-14

研究知识库草稿 · Jay · 2026-06-14

本次主题

LLM推理框架对比 / Agent架构演进 / RAG检索新范式 / 多模态模型进展


一、CSDN高价值条目

条目1:昇腾算力下的性能革新:vLLM-Ascend深度测评与全面调优实践

  • 来源昇腾开源生态专区,作者:全栈小5
  • 类型:深度测评 / 工程实践
  • 可信度:中高(有具体代码、benchmark数据表、硬件配置)
  • 工程价值:⭐⭐⭐⭐⭐
  • 详细测试环境:昇腾910B(4卡/8卡集群)vs NVIDIA A100 80GB
  • 实测数据:Llama2-7B短文本 5120 t/s(昇腾)vs 3850 t/s(A100),提升33%
  • 实测数据:Llama2-70B批量推理(batch=16)2850 t/s vs 1760 t/s,提升62%
  • 核心优化:PagedAttention重写、零拷贝KV-Cache(减少65%传输开销)、三阶段异步流水线、AllReduce分层通信策略
  • 涉及框架版本:vLLM-Ascend v0.3.1 / SGLang v1.1 / CANN 7.0
  • 包含完整C++/Python代码片段和内存管理策略
  • 复现价值:高,含具体配置参数、调优脚本框架和性能数据表
  • 标签推理优化 vLLM 昇腾 benchmark MLOps
  • 建议分类:AI Infra / 推理工程

条目2:GLM-5.1开源:独立工作8小时,探索长程任务上限

  • 来源ModelScope魔搭社区
  • 类型:模型发布 / 基准评测 / 实战案例
  • 可信度:高(官方发布,含GitHub链接和多个框架接入指南)
  • 工程价值:⭐⭐⭐⭐
  • SWE-Bench Pro 全球第一,超过GPT-5.4、Claude Opus 4.6
  • 三大实战案例:8小时从零构建Linux桌面、655次迭代优化向量数据库(QPS 3108→21472,+6.9x)、1000+轮工具调用优化ML负载(+3.6x vs torch.compile)
  • 支持框架:SGLang v0.5.10+、vLLM v0.19.0+、Transformers v0.5.3+、KTransformers v0.5.3+
  • 关键洞察:长程任务中有效工作窗口的持续性比总时长更重要;缺乏数值指标任务上的自我评估机制是核心挑战
  • 复现价值:中高,含案例描述和框架接入文档链接
  • 标签开源模型 GLM-5.1 Agent 长程任务 代码能力
  • 建议分类:LLM模型 / Agent系统

条目3:LLM 推理框架大战2026:谁才是真正的性能王者?

  • 来源CSDN博客,作者:Wufjsjjx
  • 类型:对比评测 / 行业观察
  • 可信度:中(搜索摘要丰富,未能完整抓取全文)
  • 工程价值:⭐⭐⭐(待全文验证)
  • 主题覆盖:vLLM、SGLang、TensorRT-LLM等主流框架核心技术对比
  • 核心问题:2026年大模型推理基础设施成为各家竞争焦点
  • 建议:需获取全文验证数据完整性和原创性
  • 标签推理框架 vLLM SGLang TRT-LLM benchmark

条目4:从RAG 到grep:一种更适合Agent 的检索架构

  • 来源CSDN博客
  • 类型:架构设计 / RAG演进
  • 可信度:中
  • 工程价值:⭐⭐⭐(需全文验证)
  • 涉及OpenViking(字节跳动火山引擎Viking团队2026年1月开源的上下文数据库)
  • 专为AI Agent设计,把Agent所需的一切(记忆、上下文、工具)统一管理
  • 标签RAG Agent 上下文数据库 OpenViking

条目5:ICLR 2026 Oral|当LLM Agent 在多轮推理中迷失时

  • 来源CSDN博客
  • 类型:学术论文解读 / ICLR 2026 Oral
  • 可信度:中高
  • 工程价值:⭐⭐⭐
  • 研究问题:强化学习训练的LLM Agent,随着交互轮次增加性能下降(越做越偏)
  • 现象缺乏系统理论解释,但实践中有重复出现
  • 标签LLM Agent ICLR 2026 多轮推理 强化学习 Agent漂移

二、Substack高价值条目

条目S1:To Data & Beyond — Important LLM Papers Week of 12-17 Jan 2026

  • 来源:To Data & Beyond(Youssef Hosni),Substack,https://todatabeyond.substack.com/p/important-llm-papers-for-the-week-504
  • 类型:AI论文周报
  • 可信度:中高(知名AI newsletter,链接arXiv原文)
  • 核心论文1:STEP3-VL-10B(StepFun)
  • 10B参数开源多模态模型,性能媲美10-20x大的模型(GLM-4.6V-106B、Qwen3-VL-235B),甚至超越Gemini 2.5 Pro
  • 核心技术:全参数解冻预训练(1.2T tokens)+ PaCoRe(Parallel Coordinated Reasoning,并行协调推理)
  • RL动态发现:推理任务随token长度增加而提升,但确定性感知任务(如grounding)在RL过程中反而出现"长度缩减"——模型学会剪枝冗余tokens
  • AIME2025: 94.43%,MMMU: 80.11%,ScreenSpot-V2(GUI grounding): 92.61%
  • 论文:https://arxiv.org/abs/2601.09668
  • 核心论文2:BABYVISION(UniPat AI + 北大 + 清华 + 月之暗面)
  • 揭示当前MLLM存在"能力倒置"(inverted competence profile):模型能解医学考试、高等数学,却无法完成3岁人类儿童轻松完成的视觉原语任务
  • 核心论点:当前模型过度依赖语言先验而非真正的视觉理解
  • 后续行动建议:建议核验STEP3-VL-10B的GitHub代码仓库和PaCoRe实现细节;BABYVISION值得跟进论文方法论
  • 标签多模态 LLM评测 ICL 视觉语言模型 强化学习 benchmark
  • 建议分类:学术研究 / 多模态系统

条目S2:The Complete Guide to LLM Evaluation Tools in 2026

  • 来源:Future AGI Substack,https://futureagi.substack.com/p/the-complete-guide-to-llm-evaluation
  • 类型:工具评测 / 行业报告
  • 可信度:中(公司自营内容,偏营销但含技术框架对比)
  • Top 5 LLM评估工具:Future AGI、Galileo(GenAI Studio)、Arize、MLflow、Patronus AI
  • 核心观点:2026年多模态评估和持续优化成为LLM生产部署的必备环节
  • 标签LLM评测 MLOps 工具链 评估框架
  • 建议:仅作为工具线索,不深度录入

条目S3:Agent Frameworks 101 — The Complete Guide to Building AI Agents in 2026

  • 来源:The Product Channel By Sid Saladi,https://sidsaladi.substack.com/p/agent-frameworks-101-the-complete
  • 类型:实践指南 / 框架对比
  • 可信度:中
  • 核心洞察
  • 当前有30+ AI Agent框架
  • 判断标准:工具<10个、context<50K tokens、任务顺序执行→单Agent;否则多Agent
  • MCP(Model Context Protocol)成为Agent工具连接的事实标准,被称为"USB-C"
  • 明确指出何时不需要Agent,避免过度架构
  • 标签Agent框架 MCP 架构设计
  • 建议:作为框架选型线索,轻度参考

三、分类标签汇总

#推理优化 #vLLM #SGLang #昇腾 #benchmark #MLOps
#开源模型 #GLM-5.1 #Agent #长程任务 #代码能力
#RAG #上下文数据库 #OpenViking #检索架构
#LLM-Agent #多轮推理 #Agent漂移 #ICLR2026
#多模态 #STEP3-VL #PaCoRe #视觉语言模型
#LLM评测 #评估工具 #工具链
#Agent框架 #MCP

四、写入路径与行动建议

条目 写入路径 精读优先级 备注
vLLM-Ascend深度测评 待写入 inbox/jay/ ⭐⭐⭐⭐⭐ 最高 完整benchmark数据,建议归档AI Infra主题页
GLM-5.1开源分析 待写入 inbox/jay/ ⭐⭐⭐⭐ 高 国产旗舰,建议归档LLM模型页+Agent页
STEP3-VL-10B论文 待写入 inbox/jay/ ⭐⭐⭐⭐ 高 建议归档多模态主题页
BABYVISION论文 待写入 inbox/jay/ ⭐⭐⭐ 中 评测方法论有参考价值
LLM Agent多轮推理漂移 待写入 inbox/jay/ ⭐⭐⭐ 中 ICLR 2026 Oral,建议归档Agent研究页
RAG→grep新检索架构 待写入 inbox/jay/ ⭐⭐ 待验证 需全文验证字节跳动的OpenViking
推理框架大战2026 待写入 inbox/jay/ ⭐⭐ 待验证 需全文确认数据完整性

五、本次检索元数据

  • 检索时间:2026-06-14 08:20 (UTC+8)
  • 执行实例:Jay
  • 检索范围:CSDN(site:csdn.net)+ Substack(AI/LLM/Agent方向)
  • 搜索关键词:LLM inference optimization 2026、vLLM SGLang benchmark 2026、AI Agent RAG architecture 2026、MLOps LLM deployment 2026、site:substack.com AI LLM agent research 2026
  • 去重检查:相比 inbox/jay/ 历史草稿,新增内容为主
  • GitHub写入:未执行(本轮仅产出自查草稿)

Jay · 研究知识库运营 · 2026-06-14