研究知识库草稿 · Jay · 2026-06-26

本次检索范围：CSDN 高价值技术分享（LLM 推理优化 / RAG / AI Agent / Multi-Agent / MLOps / 多模态）+ Substack AI 研究 newsletter 检索时间：2026-06-26 16:20 (UTC+8)

一、高价值条目精选

🔥 LLM 推理优化（最高优先级）

1. 《LLM 推理加速全攻略：vLLM、TensorRT-LLM 与量化技术实战》

来源：blog.csdn.net/qq_31142761（作者：qq_31142761）
发布时间：2025-12 ~ 2026-01（推断）
链接：https://blog.csdn.net/qq_31142761/article/details/161399983
可信度：⭐⭐⭐⭐ 高（系统梳理 2025-2026 年主流推理加速技术：PagedAttention、连续批处理）
工程价值：S（覆盖主流框架横向对比，适合架构选型参考）
摘要：系统梳理 vLLM / TensorRT-LLM / SGLang / LMDeploy / HuggingFace TGI / MLC-LLM / Xinference 各自优劣及适用场景，附量化技术（AWQ/GPTQ/INT8/FP8）实战指南。
版本/环境：Ubuntu 22.04 + CUDA 12.4 + vLLM 0.6.3（实测验证过）
是否需精读：✅ 是（建议作为推理框架选型基准文档）

2. 《2025年LLM推理实战指南：性能优化、对齐新范式与本地部署》

来源：bbs.csdn.net/weixin_30099989（微信全文付费文，已被 wenku 收录）
链接：https://bbs.csdn.net/weixin_30099989/article/details/100153155
可信度：⭐⭐⭐⭐⭐ 极高（作者为实战派，含实测数据、Nsight Compute 调优、具体命令参数）
工程价值：S（直接可复现）
核心亮点：
kv_cache_dtype=float16→bfloat16：4090 上 KV 缓存显存减少 18%，并发数提升
--tensor-parallel-size=2 + --pipeline-parallel-size=1：gemm 耗时从 420ms 压至 180ms，吞吐 ×2.3
--rope-scaling type="dynamic", factor=2.0：128K 上下文延迟从 12.4s 压至 3.2s（4090 用户务实方案）
FlashAttention-3：仅支持 H100+（Hopper 架构）；4090 用户用 Sliding Window Attention 替代
pip install vllm==0.6.3 --extra-index-url https://download.pytorch.org/whl/cu121（避免源码编译）
实测验证：Qwen2-7B 中文法律问答 F1=0.89，超越部分 70B 闭源模型
版本：vLLM 0.6.3 / CUDA 12.4 / Ubuntu 22.04 / Python 3.10+
是否需精读：✅ 是（Top 优先级，本周必读）

3. 《推理与部署篇01：模型推理框架深度对比》

来源：blog.csdn.net/weixin_54908067
链接：https://blog.csdn.net/weixin_54908067/article/details/162260910
可信度：⭐⭐⭐⭐（2026 年数据）
核心结论：
vLLM → GPU 部署默认首选
SGLang → RadixAttention，多轮对话吞吐量超 vLLM 5 倍
TensorRT-LLM → FP8 模式下 H100 峰值推理最优
各框架横向评测数据
是否需精读：✅ 是（与条目2配合阅读）

4. 《vLLM vs TensorRT-LLM 性能对比测试》

来源：blog.csdn.net/xx_nm98（article/details/142830893）
链接：https://blog.csdn.net/xx_nm98/article/details/142830893
工程价值：A（实测数据对比，但版本较旧 0910）
是否需精读：△ 参考（注意版本时效性）

🔥 RAG（检索增强生成）

5. 《RAG 检索增强生成实战：从 Demo 到生产环境的五个关键优化》

来源：blog.csdn.net/qq_56999332（article/details/161400644）
可信度：⭐⭐⭐⭐ 高（2025-2026 企业 AI 落地视角）
工程价值：S（生产环境实战）
摘要：五个关键优化点 → 适合工程落地检查清单
是否需精读：✅ 是（RAG 生产部署必读）

6. 《2025年度十大 RAG 开源项目全解析》

来源：adg.csdn.net/EnjoyEDU（智能体开发者社区）
链接：https://adg.csdn.net/694cf90f5b9f5f31781ab2c5.html
可信度：⭐⭐⭐⭐（含 GitHub 地址对比表）
摘要：RAGFlow / LangChain / STORM / OpenSearch / FastGPT / Haystack / MaxKB / TurboRAG / AutoRAG / txtai 十大开源项目对比
亮点：表格化对比 License / 适用场景 / 自定义模型支持
是否需精读：✅ 备选（RAG 系统选型参考）

7. 《2025年2月十大必读 RAG 论文》

来源：adg.csdn.net/和老莫一起学AI
链接：https://adg.csdn.net/694cfd7d5b9f5f31781abf08.html
可信度：⭐⭐⭐⭐⭐（高质量论文解读，含 GitHub 链接）
核心论文：DeepRAG / SafeRAG / HippoRAG 2 / MEMERAG / RetroLM / RankCoT 等
是否需精读：✅ 是（2-3 篇核心论文建议深读原文）

8. 《RAG 架构终极对比指南：8大主流方案全解析》

来源：adg.csdn.net/Python编程杰哥
链接：https://adg.csdn.net/695333db5b9f5f31781bcc02.html
可信度：⭐⭐⭐⭐（8 种 RAG 架构横向对比）
摘要：Naive RAG / Multimodal RAG / HyDE / Corrective RAG / Graph RAG / Hybrid RAG / Self-RAG / Agentic RAG
是否需精读：△ 参考（框架概览，非实战）

🔥 AI Agent / Multi-Agent

9. 《2025主流 AI 智能体框架盘点与对比》

来源：agent.csdn.net/kjh2007abc（AI Agent 技术社区）
链接：https://agent.csdn.net/67d8cdc01056564ee24639f7.html
可信度：⭐⭐⭐⭐⭐（2025 年最完整框架横向对比）
覆盖框架：LangGraph / CrewAI / Semantic Kernel / AutoGen / Dify / MetaGPT / OmAgent
对比维度：核心定位 / 主要特点 / 局限性 / GitHub 地址
版本：2025 年最新版
是否需精读：✅ 是（框架选型必备）

10. 《2025年构建人工智能体的五大框架》

来源：openvela.csdn.net/爱编程的小辞
链接：https://openvela.csdn.net/694a6a975b9f5f317819f072.html
可信度：⭐⭐⭐⭐（LangChain / LangGraph / CrewAI / Semantic Kernel / AutoGen 深度解析）
亮点：含组件架构说明，图文并茂，适合理解各框架设计理念
是否需精读：✅ 备选（与条目9配合）

11. 《深入解析多智能体（Multi-Agent）系统的应用场景与架构模式》

来源：modelengine.csdn.net/高级绘画师PP
链接：https://modelengine.csdn.net/690c53cd5511483559e2b90e.html
可信度：⭐⭐⭐⭐（架构设计模式深度解析）
核心内容：Agents as Tools / Swarm / Graph / Workflow 四种设计模式
案例：医疗辅助诊断系统的 Multi-Agent 协作流程图
是否需精读：✅ 是（架构设计参考）

12. 《B 主流 Multi-Agent 智能体开发框架大盘点》

来源：modelengine.csdn.net/hewenhu_21
链接：https://modelengine.csdn.net/690b1d275511483559e26df0.html
可信度：⭐⭐⭐⭐（AutoGen / CrewAI / LangGraph / Swarm / Magentic-One 全覆盖）
亮点：选型决策树（代码生成 / 初学者 / 复杂任务 / 开源模型融合 / 社区支持 / 成本）
是否需精读：✅ 是（框架选型辅助）

🔥 MLOps / LMOps / Agent Ops

13. 《MLOps：连接 AI 模型与商业价值的桥梁，也是职业新蓝海》

来源：gitcode.csdn.net/霍格沃兹测试开发学社-小明（AtomGit 开源社区）
链接：https://gitcode.csdn.net/69f19c8d0a2f6a37c5a6c3ab.html
发布时间：2026-04-29（最新）
可信度：⭐⭐⭐⭐（企业视角，质量高）
亮点：测试开发视角切入 MLOps（少见的测试 × MLOps 交叉角度）
核心数据：Netflix MLOps 后推荐模型更新频率 ×10 / 客户留存率 +15%；阿里巴巴 MLOps 减少滞销库存 15%
是否需精读：△ 参考（视角独特但非工程深度）

14. 《DevOps 还没学透，Agent Ops 已经来了：2026 年运维范式正在被智能体重构》

来源：mcp.csdn.net/AgentInsight
链接：https://mcp.csdn.net/6a37a794662f9a54cb82586c.html
可信度：⭐⭐⭐⭐（2026 前沿，Agent Ops 新概念）
核心观点：DevOps → MLOps → Agent Ops 三代演进；Agent Ops 核心理念 R.E.S.T（Reliability / Efficiency / Security / Traceability）
工具：AgentInsight（国内首个 Agent Ops 可观测平台）
是否需精读：✅ 是（Agent Ops 前沿概念理解）

15. 《LMOps 平台工程 2026：大模型生命周期管理的生产级实践指南》

来源：blog.csdn.net/yonggeit（article/details/162109699）
链接：https://blog.csdn.net/yonggeit/article/details/162109699
可信度：⭐⭐⭐⭐（七阶段生命周期管理）
核心框架：数据工程 → 训练管理 → 评估认证 → 部署路由 → 监控 → 安全对齐 → 合规审计
是否需精读：✅ 备选（平台工程概览）

16. 《2025年运维工程师转行 AI 大模型全攻略》

来源：adg.csdn.net/小涂Ss
链接：https://adg.csdn.net/696f36ee437a6b403369aba4.html
可信度：⭐⭐⭐⭐（转型路线图，含工具链命令）
亮点：DeepSpeed --num_gpus 128 --bf16 --zero_stage 3 实战命令；KServe+Istio 网关；Prometheus 定制监控
是否需精读：✅ 备选（DevOps → MLOps 转型参考）

🌐 Substack 高价值研究线索

17. 《The Complete Guide to LLM Evaluation Tools in 2026》（Future AGI）

来源：futureagi.substack.com
链接：https://futureagi.substack.com/p/the-complete-guide-to-llm-evaluation
作者：Future AGI（AI 评测平台）
发布时间：2026-01（推断）
可信度：⭐⭐⭐⭐（平台方发布，非纯营销）
核心内容：Top 5 LLM 评测工具对比（Future AGI / Galileo / Arize / MLflow / Patronus AI）
关注点：多模态评测 / 持续优化功能对比
后续行动：✅ 建议核验各平台官网定价与功能更新

18. 《The 2026 Roadmap: Production AI/ML Systems》（Jam with AI）

来源：jamwithai.substack.com
链接：https://jamwithai.substack.com/p/the-2026-roadmap-production-aiml
作者：Jam with AI community
可信度：⭐⭐⭐（社区向，非商业）
核心内容：AI Agents / Advanced RAG / NLP / RecSys / MLOps 2026 Roadmap；强调 System Thinking 和生产级实现
后续行动：✅ 可作 2026 研究路线参考

19. 《The Complete Guide for LangChain & LangGraph》（Aishwarya Srinivasan）

来源：aishwaryasrinivasan.substack.com
链接：https://aishwaryasrinivasan.substack.com/p/the-complete-guide-for-langchain
作者：Aishwarya Srinivasan（知名 ML educator）
可信度：⭐⭐⭐⭐（技术教育向，高质量）
核心洞察：2024=RAG 年 / 2025=Agent 年 / 2026=Stateful Orchestration 年；LangGraph StateGraph + Checkpointers 实战
后续行动：✅ 可作为 LangGraph 进阶学习线索

20. 《How to Choose Your AI Agent Stack in 2026》

来源：thenuancedperspective.substack.com
链接：https://thenuancedperspective.substack.com/p/how-to-choose-your-ai-agent-stack
作者：Aishwarya Naresh Reganti + Kiriti Badam
可信度：⭐⭐⭐⭐（九层 AI Agent Stack 分析）
核心洞察：Runtimes 和 harnesses 正在商品化（2025-2026 关键趋势）
后续行动：✅ 建议核验原文完整 stack 分层

二、分类标签汇总

标签	条目
`LLM-推理优化`	#1 #2 #3 #4
`RAG`	#5 #6 #7 #8
`AI-Agent`	#9 #10 #11 #12
`MLOps/AgentOps`	#13 #14 #15 #16
`多模态`	#6( Multimodal RAG)
`学术论文`	#7(DeepRAG/SafeRAG等)
`Substack-研究线索`	#17 #18 #19 #20
`工具对比/选型`	#3 #9 #12 #17
`Benchmark数据`	#2(4090实测) #3(2026框架对比)

三、建议写入路径

/shared/research-kb/inbox/jay/2026-06-26-csdn-llm-agent-rag-mlops.md

四、精读/审稿/主题页更新建议

✅ 本次必精读（Top 3）

#2 — LLM推理实战指南（4090实测数据 + 命令参数，最快可落地）
#9 — AI Agent框架盘点（2025最完整横向对比表）
#7 — 2025年2月RAG十大论文（DeepRAG/SafeRAG 建议核验原论文）

△ 建议审稿（待核实原文）

#17 — Future AGI LLM评测工具对比（建议核验官网最新功能）
#19 — LangChain & LangGraph Stateful Orchestration（建议核验原文配图代码）

📋 建议主题页更新

LLM 推理框架选型页 → 合并 #1 #2 #3 → 添加 2026-06 时间戳
RAG 系统工程页 → 合并 #5 #6 #7 → 添加论文链接和开源项目表
AI Agent 框架选型页 → 合并 #9 #12 → 更新 2025年底最新框架对比
MLOps/AgentOps 页 → 合并 #14 #15 → 添加 Agent Ops 概念定义

五、本次检索元数据

检索执行时间：2026-06-26 16:20 (UTC+8)
检索频率：每日 3 次中的第 2 次
CSDN 来源分布：智能体开发者社区(adg) / AI Agent技术社区(agent) / ModelEngine / CSDN博客 / GitCode
Substack 来源：Future AGI / Jam with AI / Aishwarya Srinivasan / The Nuanced Perspective
本轮总候选条目：~40 条（含重复去重后约 25 条独立来源）
高价值条目：20 条（A级以上）