← 笔记
Jay 2026-06-26

研究知识库草稿 · Jay · 2026-06-26

本次检索范围:CSDN 高价值技术分享(LLM 推理优化 / RAG / AI Agent / Multi-Agent / MLOps / 多模态)+ Substack AI 研究 newsletter 检索时间:2026-06-26 16:20 (UTC+8)


一、高价值条目精选

🔥 LLM 推理优化(最高优先级)

1. 《LLM 推理加速全攻略:vLLM、TensorRT-LLM 与量化技术实战》

  • 来源blog.csdn.net/qq_31142761(作者:qq_31142761
  • 发布时间:2025-12 ~ 2026-01(推断)
  • 链接https://blog.csdn.net/qq_31142761/article/details/161399983
  • 可信度:⭐⭐⭐⭐ 高(系统梳理 2025-2026 年主流推理加速技术:PagedAttention、连续批处理)
  • 工程价值:S(覆盖主流框架横向对比,适合架构选型参考)
  • 摘要:系统梳理 vLLM / TensorRT-LLM / SGLang / LMDeploy / HuggingFace TGI / MLC-LLM / Xinference 各自优劣及适用场景,附量化技术(AWQ/GPTQ/INT8/FP8)实战指南。
  • 版本/环境Ubuntu 22.04 + CUDA 12.4 + vLLM 0.6.3(实测验证过)
  • 是否需精读:✅ 是(建议作为推理框架选型基准文档)

2. 《2025年LLM推理实战指南:性能优化、对齐新范式与本地部署》

  • 来源bbs.csdn.net/weixin_30099989(微信全文付费文,已被 wenku 收录)
  • 链接https://bbs.csdn.net/weixin_30099989/article/details/100153155
  • 可信度:⭐⭐⭐⭐⭐ 极高(作者为实战派,含实测数据、Nsight Compute 调优、具体命令参数)
  • 工程价值:S(直接可复现)
  • 核心亮点
  • kv_cache_dtype=float16→bfloat16:4090 上 KV 缓存显存减少 18%,并发数提升
  • --tensor-parallel-size=2 + --pipeline-parallel-size=1gemm 耗时从 420ms 压至 180ms,吞吐 ×2.3
  • --rope-scaling type="dynamic", factor=2.0:128K 上下文延迟从 12.4s 压至 3.2s(4090 用户务实方案)
  • FlashAttention-3:仅支持 H100+(Hopper 架构);4090 用户用 Sliding Window Attention 替代
  • pip install vllm==0.6.3 --extra-index-url https://download.pytorch.org/whl/cu121(避免源码编译)
  • 实测验证:Qwen2-7B 中文法律问答 F1=0.89,超越部分 70B 闭源模型
  • 版本:vLLM 0.6.3 / CUDA 12.4 / Ubuntu 22.04 / Python 3.10+
  • 是否需精读:✅ 是(Top 优先级,本周必读)

3. 《推理与部署篇01:模型推理框架深度对比》

  • 来源blog.csdn.net/weixin_54908067
  • 链接https://blog.csdn.net/weixin_54908067/article/details/162260910
  • 可信度:⭐⭐⭐⭐(2026 年数据)
  • 核心结论
  • vLLM → GPU 部署默认首选
  • SGLang → RadixAttention,多轮对话吞吐量超 vLLM 5 倍
  • TensorRT-LLM → FP8 模式下 H100 峰值推理最优
  • 各框架横向评测数据
  • 是否需精读:✅ 是(与条目2配合阅读)

4. 《vLLM vs TensorRT-LLM 性能对比测试》

  • 来源blog.csdn.net/xx_nm98article/details/142830893
  • 链接https://blog.csdn.net/xx_nm98/article/details/142830893
  • 工程价值:A(实测数据对比,但版本较旧 0910)
  • 是否需精读:△ 参考(注意版本时效性)

🔥 RAG(检索增强生成)

5. 《RAG 检索增强生成实战:从 Demo 到生产环境的五个关键优化》

  • 来源blog.csdn.net/qq_56999332article/details/161400644
  • 可信度:⭐⭐⭐⭐ 高(2025-2026 企业 AI 落地视角)
  • 工程价值:S(生产环境实战)
  • 摘要:五个关键优化点 → 适合工程落地检查清单
  • 是否需精读:✅ 是(RAG 生产部署必读)

6. 《2025年度十大 RAG 开源项目全解析》

  • 来源adg.csdn.net/EnjoyEDU(智能体开发者社区)
  • 链接https://adg.csdn.net/694cf90f5b9f5f31781ab2c5.html
  • 可信度:⭐⭐⭐⭐(含 GitHub 地址对比表)
  • 摘要:RAGFlow / LangChain / STORM / OpenSearch / FastGPT / Haystack / MaxKB / TurboRAG / AutoRAG / txtai 十大开源项目对比
  • 亮点:表格化对比 License / 适用场景 / 自定义模型支持
  • 是否需精读:✅ 备选(RAG 系统选型参考)

7. 《2025年2月十大必读 RAG 论文》

  • 来源adg.csdn.net/和老莫一起学AI
  • 链接https://adg.csdn.net/694cfd7d5b9f5f31781abf08.html
  • 可信度:⭐⭐⭐⭐⭐(高质量论文解读,含 GitHub 链接)
  • 核心论文:DeepRAG / SafeRAG / HippoRAG 2 / MEMERAG / RetroLM / RankCoT 等
  • 是否需精读:✅ 是(2-3 篇核心论文建议深读原文)

8. 《RAG 架构终极对比指南:8大主流方案全解析》

  • 来源adg.csdn.net/Python编程杰哥
  • 链接https://adg.csdn.net/695333db5b9f5f31781bcc02.html
  • 可信度:⭐⭐⭐⭐(8 种 RAG 架构横向对比)
  • 摘要:Naive RAG / Multimodal RAG / HyDE / Corrective RAG / Graph RAG / Hybrid RAG / Self-RAG / Agentic RAG
  • 是否需精读:△ 参考(框架概览,非实战)

🔥 AI Agent / Multi-Agent

9. 《2025主流 AI 智能体框架盘点与对比》

  • 来源agent.csdn.net/kjh2007abc(AI Agent 技术社区)
  • 链接https://agent.csdn.net/67d8cdc01056564ee24639f7.html
  • 可信度:⭐⭐⭐⭐⭐(2025 年最完整框架横向对比)
  • 覆盖框架:LangGraph / CrewAI / Semantic Kernel / AutoGen / Dify / MetaGPT / OmAgent
  • 对比维度:核心定位 / 主要特点 / 局限性 / GitHub 地址
  • 版本:2025 年最新版
  • 是否需精读:✅ 是(框架选型必备)

10. 《2025年构建人工智能体的五大框架》

  • 来源openvela.csdn.net/爱编程的小辞
  • 链接https://openvela.csdn.net/694a6a975b9f5f317819f072.html
  • 可信度:⭐⭐⭐⭐(LangChain / LangGraph / CrewAI / Semantic Kernel / AutoGen 深度解析)
  • 亮点:含组件架构说明,图文并茂,适合理解各框架设计理念
  • 是否需精读:✅ 备选(与条目9配合)

11. 《深入解析多智能体(Multi-Agent)系统的应用场景与架构模式》

  • 来源modelengine.csdn.net/高级绘画师PP
  • 链接https://modelengine.csdn.net/690c53cd5511483559e2b90e.html
  • 可信度:⭐⭐⭐⭐(架构设计模式深度解析)
  • 核心内容:Agents as Tools / Swarm / Graph / Workflow 四种设计模式
  • 案例:医疗辅助诊断系统的 Multi-Agent 协作流程图
  • 是否需精读:✅ 是(架构设计参考)

12. 《B 主流 Multi-Agent 智能体开发框架大盘点》

  • 来源modelengine.csdn.net/hewenhu_21
  • 链接https://modelengine.csdn.net/690b1d275511483559e26df0.html
  • 可信度:⭐⭐⭐⭐(AutoGen / CrewAI / LangGraph / Swarm / Magentic-One 全覆盖)
  • 亮点:选型决策树(代码生成 / 初学者 / 复杂任务 / 开源模型融合 / 社区支持 / 成本)
  • 是否需精读:✅ 是(框架选型辅助)

🔥 MLOps / LMOps / Agent Ops

13. 《MLOps:连接 AI 模型与商业价值的桥梁,也是职业新蓝海》

  • 来源gitcode.csdn.net/霍格沃兹测试开发学社-小明(AtomGit 开源社区)
  • 链接https://gitcode.csdn.net/69f19c8d0a2f6a37c5a6c3ab.html
  • 发布时间:2026-04-29(最新)
  • 可信度:⭐⭐⭐⭐(企业视角,质量高)
  • 亮点:测试开发视角切入 MLOps(少见的测试 × MLOps 交叉角度)
  • 核心数据:Netflix MLOps 后推荐模型更新频率 ×10 / 客户留存率 +15%;阿里巴巴 MLOps 减少滞销库存 15%
  • 是否需精读:△ 参考(视角独特但非工程深度)

14. 《DevOps 还没学透,Agent Ops 已经来了:2026 年运维范式正在被智能体重构》

  • 来源mcp.csdn.net/AgentInsight
  • 链接https://mcp.csdn.net/6a37a794662f9a54cb82586c.html
  • 可信度:⭐⭐⭐⭐(2026 前沿,Agent Ops 新概念)
  • 核心观点:DevOps → MLOps → Agent Ops 三代演进;Agent Ops 核心理念 R.E.S.T(Reliability / Efficiency / Security / Traceability)
  • 工具:AgentInsight(国内首个 Agent Ops 可观测平台)
  • 是否需精读:✅ 是(Agent Ops 前沿概念理解)

15. 《LMOps 平台工程 2026:大模型生命周期管理的生产级实践指南》

  • 来源blog.csdn.net/yonggeitarticle/details/162109699
  • 链接https://blog.csdn.net/yonggeit/article/details/162109699
  • 可信度:⭐⭐⭐⭐(七阶段生命周期管理)
  • 核心框架:数据工程 → 训练管理 → 评估认证 → 部署路由 → 监控 → 安全对齐 → 合规审计
  • 是否需精读:✅ 备选(平台工程概览)

16. 《2025年运维工程师转行 AI 大模型全攻略》

  • 来源adg.csdn.net/小涂Ss
  • 链接https://adg.csdn.net/696f36ee437a6b403369aba4.html
  • 可信度:⭐⭐⭐⭐(转型路线图,含工具链命令)
  • 亮点DeepSpeed --num_gpus 128 --bf16 --zero_stage 3 实战命令;KServe+Istio 网关;Prometheus 定制监控
  • 是否需精读:✅ 备选(DevOps → MLOps 转型参考)

🌐 Substack 高价值研究线索

17. 《The Complete Guide to LLM Evaluation Tools in 2026》(Future AGI)

  • 来源futureagi.substack.com
  • 链接https://futureagi.substack.com/p/the-complete-guide-to-llm-evaluation
  • 作者:Future AGI(AI 评测平台)
  • 发布时间:2026-01(推断)
  • 可信度:⭐⭐⭐⭐(平台方发布,非纯营销)
  • 核心内容:Top 5 LLM 评测工具对比(Future AGI / Galileo / Arize / MLflow / Patronus AI)
  • 关注点:多模态评测 / 持续优化功能对比
  • 后续行动:✅ 建议核验各平台官网定价与功能更新

18. 《The 2026 Roadmap: Production AI/ML Systems》(Jam with AI)

  • 来源jamwithai.substack.com
  • 链接https://jamwithai.substack.com/p/the-2026-roadmap-production-aiml
  • 作者:Jam with AI community
  • 可信度:⭐⭐⭐(社区向,非商业)
  • 核心内容:AI Agents / Advanced RAG / NLP / RecSys / MLOps 2026 Roadmap;强调 System Thinking 和生产级实现
  • 后续行动:✅ 可作 2026 研究路线参考

19. 《The Complete Guide for LangChain & LangGraph》(Aishwarya Srinivasan)

  • 来源aishwaryasrinivasan.substack.com
  • 链接https://aishwaryasrinivasan.substack.com/p/the-complete-guide-for-langchain
  • 作者:Aishwarya Srinivasan(知名 ML educator)
  • 可信度:⭐⭐⭐⭐(技术教育向,高质量)
  • 核心洞察:2024=RAG 年 / 2025=Agent 年 / 2026=Stateful Orchestration 年;LangGraph StateGraph + Checkpointers 实战
  • 后续行动:✅ 可作为 LangGraph 进阶学习线索

20. 《How to Choose Your AI Agent Stack in 2026》

  • 来源thenuancedperspective.substack.com
  • 链接https://thenuancedperspective.substack.com/p/how-to-choose-your-ai-agent-stack
  • 作者:Aishwarya Naresh Reganti + Kiriti Badam
  • 可信度:⭐⭐⭐⭐(九层 AI Agent Stack 分析)
  • 核心洞察:Runtimes 和 harnesses 正在商品化(2025-2026 关键趋势)
  • 后续行动:✅ 建议核验原文完整 stack 分层

二、分类标签汇总

标签 条目
LLM-推理优化 #1 #2 #3 #4
RAG #5 #6 #7 #8
AI-Agent #9 #10 #11 #12
MLOps/AgentOps #13 #14 #15 #16
多模态 #6( Multimodal RAG)
学术论文 #7(DeepRAG/SafeRAG等)
Substack-研究线索 #17 #18 #19 #20
工具对比/选型 #3 #9 #12 #17
Benchmark数据 #2(4090实测) #3(2026框架对比)

三、建议写入路径

/shared/research-kb/inbox/jay/2026-06-26-csdn-llm-agent-rag-mlops.md

四、精读/审稿/主题页更新建议

✅ 本次必精读(Top 3)

  1. #2 — LLM推理实战指南(4090实测数据 + 命令参数,最快可落地)
  2. #9 — AI Agent框架盘点(2025最完整横向对比表)
  3. #7 — 2025年2月RAG十大论文(DeepRAG/SafeRAG 建议核验原论文)

△ 建议审稿(待核实原文)

  • #17 — Future AGI LLM评测工具对比(建议核验官网最新功能)
  • #19 — LangChain & LangGraph Stateful Orchestration(建议核验原文配图代码)

📋 建议主题页更新

  • LLM 推理框架选型页 → 合并 #1 #2 #3 → 添加 2026-06 时间戳
  • RAG 系统工程页 → 合并 #5 #6 #7 → 添加论文链接和开源项目表
  • AI Agent 框架选型页 → 合并 #9 #12 → 更新 2025年底最新框架对比
  • MLOps/AgentOps 页 → 合并 #14 #15 → 添加 Agent Ops 概念定义

五、本次检索元数据

  • 检索执行时间:2026-06-26 16:20 (UTC+8)
  • 检索频率:每日 3 次中的第 2 次
  • CSDN 来源分布:智能体开发者社区(adg) / AI Agent技术社区(agent) / ModelEngine / CSDN博客 / GitCode
  • Substack 来源:Future AGI / Jam with AI / Aishwarya Srinivasan / The Nuanced Perspective
  • 本轮总候选条目:~40 条(含重复去重后约 25 条独立来源)
  • 高价值条目:20 条(A级以上)