研究知识库草稿 · Jay · 2026-06-26
本次检索范围:CSDN 高价值技术分享(LLM 推理优化 / RAG / AI Agent / Multi-Agent / MLOps / 多模态)+ Substack AI 研究 newsletter 检索时间:2026-06-26 16:20 (UTC+8)
一、高价值条目精选
🔥 LLM 推理优化(最高优先级)
1. 《LLM 推理加速全攻略:vLLM、TensorRT-LLM 与量化技术实战》
- 来源:
blog.csdn.net/qq_31142761(作者:qq_31142761) - 发布时间:2025-12 ~ 2026-01(推断)
- 链接:
https://blog.csdn.net/qq_31142761/article/details/161399983 - 可信度:⭐⭐⭐⭐ 高(系统梳理 2025-2026 年主流推理加速技术:PagedAttention、连续批处理)
- 工程价值:S(覆盖主流框架横向对比,适合架构选型参考)
- 摘要:系统梳理 vLLM / TensorRT-LLM / SGLang / LMDeploy / HuggingFace TGI / MLC-LLM / Xinference 各自优劣及适用场景,附量化技术(AWQ/GPTQ/INT8/FP8)实战指南。
- 版本/环境:
Ubuntu 22.04 + CUDA 12.4 + vLLM 0.6.3(实测验证过) - 是否需精读:✅ 是(建议作为推理框架选型基准文档)
2. 《2025年LLM推理实战指南:性能优化、对齐新范式与本地部署》
- 来源:
bbs.csdn.net/weixin_30099989(微信全文付费文,已被 wenku 收录) - 链接:
https://bbs.csdn.net/weixin_30099989/article/details/100153155 - 可信度:⭐⭐⭐⭐⭐ 极高(作者为实战派,含实测数据、Nsight Compute 调优、具体命令参数)
- 工程价值:S(直接可复现)
- 核心亮点:
kv_cache_dtype=float16→bfloat16:4090 上 KV 缓存显存减少 18%,并发数提升--tensor-parallel-size=2+--pipeline-parallel-size=1:gemm耗时从 420ms 压至 180ms,吞吐 ×2.3--rope-scaling type="dynamic", factor=2.0:128K 上下文延迟从 12.4s 压至 3.2s(4090 用户务实方案)- FlashAttention-3:仅支持 H100+(Hopper 架构);4090 用户用 Sliding Window Attention 替代
pip install vllm==0.6.3 --extra-index-url https://download.pytorch.org/whl/cu121(避免源码编译)- 实测验证:Qwen2-7B 中文法律问答 F1=0.89,超越部分 70B 闭源模型
- 版本:vLLM 0.6.3 / CUDA 12.4 / Ubuntu 22.04 / Python 3.10+
- 是否需精读:✅ 是(Top 优先级,本周必读)
3. 《推理与部署篇01:模型推理框架深度对比》
- 来源:
blog.csdn.net/weixin_54908067 - 链接:
https://blog.csdn.net/weixin_54908067/article/details/162260910 - 可信度:⭐⭐⭐⭐(2026 年数据)
- 核心结论:
- vLLM → GPU 部署默认首选
- SGLang → RadixAttention,多轮对话吞吐量超 vLLM 5 倍
- TensorRT-LLM → FP8 模式下 H100 峰值推理最优
- 各框架横向评测数据
- 是否需精读:✅ 是(与条目2配合阅读)
4. 《vLLM vs TensorRT-LLM 性能对比测试》
- 来源:
blog.csdn.net/xx_nm98(article/details/142830893) - 链接:
https://blog.csdn.net/xx_nm98/article/details/142830893 - 工程价值:A(实测数据对比,但版本较旧 0910)
- 是否需精读:△ 参考(注意版本时效性)
🔥 RAG(检索增强生成)
5. 《RAG 检索增强生成实战:从 Demo 到生产环境的五个关键优化》
- 来源:
blog.csdn.net/qq_56999332(article/details/161400644) - 可信度:⭐⭐⭐⭐ 高(2025-2026 企业 AI 落地视角)
- 工程价值:S(生产环境实战)
- 摘要:五个关键优化点 → 适合工程落地检查清单
- 是否需精读:✅ 是(RAG 生产部署必读)
6. 《2025年度十大 RAG 开源项目全解析》
- 来源:
adg.csdn.net/EnjoyEDU(智能体开发者社区) - 链接:
https://adg.csdn.net/694cf90f5b9f5f31781ab2c5.html - 可信度:⭐⭐⭐⭐(含 GitHub 地址对比表)
- 摘要:RAGFlow / LangChain / STORM / OpenSearch / FastGPT / Haystack / MaxKB / TurboRAG / AutoRAG / txtai 十大开源项目对比
- 亮点:表格化对比 License / 适用场景 / 自定义模型支持
- 是否需精读:✅ 备选(RAG 系统选型参考)
7. 《2025年2月十大必读 RAG 论文》
- 来源:
adg.csdn.net/和老莫一起学AI - 链接:
https://adg.csdn.net/694cfd7d5b9f5f31781abf08.html - 可信度:⭐⭐⭐⭐⭐(高质量论文解读,含 GitHub 链接)
- 核心论文:DeepRAG / SafeRAG / HippoRAG 2 / MEMERAG / RetroLM / RankCoT 等
- 是否需精读:✅ 是(2-3 篇核心论文建议深读原文)
8. 《RAG 架构终极对比指南:8大主流方案全解析》
- 来源:
adg.csdn.net/Python编程杰哥 - 链接:
https://adg.csdn.net/695333db5b9f5f31781bcc02.html - 可信度:⭐⭐⭐⭐(8 种 RAG 架构横向对比)
- 摘要:Naive RAG / Multimodal RAG / HyDE / Corrective RAG / Graph RAG / Hybrid RAG / Self-RAG / Agentic RAG
- 是否需精读:△ 参考(框架概览,非实战)
🔥 AI Agent / Multi-Agent
9. 《2025主流 AI 智能体框架盘点与对比》
- 来源:
agent.csdn.net/kjh2007abc(AI Agent 技术社区) - 链接:
https://agent.csdn.net/67d8cdc01056564ee24639f7.html - 可信度:⭐⭐⭐⭐⭐(2025 年最完整框架横向对比)
- 覆盖框架:LangGraph / CrewAI / Semantic Kernel / AutoGen / Dify / MetaGPT / OmAgent
- 对比维度:核心定位 / 主要特点 / 局限性 / GitHub 地址
- 版本:2025 年最新版
- 是否需精读:✅ 是(框架选型必备)
10. 《2025年构建人工智能体的五大框架》
- 来源:
openvela.csdn.net/爱编程的小辞 - 链接:
https://openvela.csdn.net/694a6a975b9f5f317819f072.html - 可信度:⭐⭐⭐⭐(LangChain / LangGraph / CrewAI / Semantic Kernel / AutoGen 深度解析)
- 亮点:含组件架构说明,图文并茂,适合理解各框架设计理念
- 是否需精读:✅ 备选(与条目9配合)
11. 《深入解析多智能体(Multi-Agent)系统的应用场景与架构模式》
- 来源:
modelengine.csdn.net/高级绘画师PP - 链接:
https://modelengine.csdn.net/690c53cd5511483559e2b90e.html - 可信度:⭐⭐⭐⭐(架构设计模式深度解析)
- 核心内容:Agents as Tools / Swarm / Graph / Workflow 四种设计模式
- 案例:医疗辅助诊断系统的 Multi-Agent 协作流程图
- 是否需精读:✅ 是(架构设计参考)
12. 《B 主流 Multi-Agent 智能体开发框架大盘点》
- 来源:
modelengine.csdn.net/hewenhu_21 - 链接:
https://modelengine.csdn.net/690b1d275511483559e26df0.html - 可信度:⭐⭐⭐⭐(AutoGen / CrewAI / LangGraph / Swarm / Magentic-One 全覆盖)
- 亮点:选型决策树(代码生成 / 初学者 / 复杂任务 / 开源模型融合 / 社区支持 / 成本)
- 是否需精读:✅ 是(框架选型辅助)
🔥 MLOps / LMOps / Agent Ops
13. 《MLOps:连接 AI 模型与商业价值的桥梁,也是职业新蓝海》
- 来源:
gitcode.csdn.net/霍格沃兹测试开发学社-小明(AtomGit 开源社区) - 链接:
https://gitcode.csdn.net/69f19c8d0a2f6a37c5a6c3ab.html - 发布时间:2026-04-29(最新)
- 可信度:⭐⭐⭐⭐(企业视角,质量高)
- 亮点:测试开发视角切入 MLOps(少见的测试 × MLOps 交叉角度)
- 核心数据:Netflix MLOps 后推荐模型更新频率 ×10 / 客户留存率 +15%;阿里巴巴 MLOps 减少滞销库存 15%
- 是否需精读:△ 参考(视角独特但非工程深度)
14. 《DevOps 还没学透,Agent Ops 已经来了:2026 年运维范式正在被智能体重构》
- 来源:
mcp.csdn.net/AgentInsight - 链接:
https://mcp.csdn.net/6a37a794662f9a54cb82586c.html - 可信度:⭐⭐⭐⭐(2026 前沿,Agent Ops 新概念)
- 核心观点:DevOps → MLOps → Agent Ops 三代演进;Agent Ops 核心理念 R.E.S.T(Reliability / Efficiency / Security / Traceability)
- 工具:AgentInsight(国内首个 Agent Ops 可观测平台)
- 是否需精读:✅ 是(Agent Ops 前沿概念理解)
15. 《LMOps 平台工程 2026:大模型生命周期管理的生产级实践指南》
- 来源:
blog.csdn.net/yonggeit(article/details/162109699) - 链接:
https://blog.csdn.net/yonggeit/article/details/162109699 - 可信度:⭐⭐⭐⭐(七阶段生命周期管理)
- 核心框架:数据工程 → 训练管理 → 评估认证 → 部署路由 → 监控 → 安全对齐 → 合规审计
- 是否需精读:✅ 备选(平台工程概览)
16. 《2025年运维工程师转行 AI 大模型全攻略》
- 来源:
adg.csdn.net/小涂Ss - 链接:
https://adg.csdn.net/696f36ee437a6b403369aba4.html - 可信度:⭐⭐⭐⭐(转型路线图,含工具链命令)
- 亮点:
DeepSpeed --num_gpus 128 --bf16 --zero_stage 3实战命令;KServe+Istio 网关;Prometheus 定制监控 - 是否需精读:✅ 备选(DevOps → MLOps 转型参考)
🌐 Substack 高价值研究线索
17. 《The Complete Guide to LLM Evaluation Tools in 2026》(Future AGI)
- 来源:
futureagi.substack.com - 链接:
https://futureagi.substack.com/p/the-complete-guide-to-llm-evaluation - 作者:Future AGI(AI 评测平台)
- 发布时间:2026-01(推断)
- 可信度:⭐⭐⭐⭐(平台方发布,非纯营销)
- 核心内容:Top 5 LLM 评测工具对比(Future AGI / Galileo / Arize / MLflow / Patronus AI)
- 关注点:多模态评测 / 持续优化功能对比
- 后续行动:✅ 建议核验各平台官网定价与功能更新
18. 《The 2026 Roadmap: Production AI/ML Systems》(Jam with AI)
- 来源:
jamwithai.substack.com - 链接:
https://jamwithai.substack.com/p/the-2026-roadmap-production-aiml - 作者:Jam with AI community
- 可信度:⭐⭐⭐(社区向,非商业)
- 核心内容:AI Agents / Advanced RAG / NLP / RecSys / MLOps 2026 Roadmap;强调 System Thinking 和生产级实现
- 后续行动:✅ 可作 2026 研究路线参考
19. 《The Complete Guide for LangChain & LangGraph》(Aishwarya Srinivasan)
- 来源:
aishwaryasrinivasan.substack.com - 链接:
https://aishwaryasrinivasan.substack.com/p/the-complete-guide-for-langchain - 作者:Aishwarya Srinivasan(知名 ML educator)
- 可信度:⭐⭐⭐⭐(技术教育向,高质量)
- 核心洞察:2024=RAG 年 / 2025=Agent 年 / 2026=Stateful Orchestration 年;LangGraph
StateGraph+Checkpointers实战 - 后续行动:✅ 可作为 LangGraph 进阶学习线索
20. 《How to Choose Your AI Agent Stack in 2026》
- 来源:
thenuancedperspective.substack.com - 链接:
https://thenuancedperspective.substack.com/p/how-to-choose-your-ai-agent-stack - 作者:Aishwarya Naresh Reganti + Kiriti Badam
- 可信度:⭐⭐⭐⭐(九层 AI Agent Stack 分析)
- 核心洞察:Runtimes 和 harnesses 正在商品化(2025-2026 关键趋势)
- 后续行动:✅ 建议核验原文完整 stack 分层
二、分类标签汇总
| 标签 | 条目 |
|---|---|
LLM-推理优化 |
#1 #2 #3 #4 |
RAG |
#5 #6 #7 #8 |
AI-Agent |
#9 #10 #11 #12 |
MLOps/AgentOps |
#13 #14 #15 #16 |
多模态 |
#6( Multimodal RAG) |
学术论文 |
#7(DeepRAG/SafeRAG等) |
Substack-研究线索 |
#17 #18 #19 #20 |
工具对比/选型 |
#3 #9 #12 #17 |
Benchmark数据 |
#2(4090实测) #3(2026框架对比) |
三、建议写入路径
/shared/research-kb/inbox/jay/2026-06-26-csdn-llm-agent-rag-mlops.md
四、精读/审稿/主题页更新建议
✅ 本次必精读(Top 3)
- #2 — LLM推理实战指南(4090实测数据 + 命令参数,最快可落地)
- #9 — AI Agent框架盘点(2025最完整横向对比表)
- #7 — 2025年2月RAG十大论文(DeepRAG/SafeRAG 建议核验原论文)
△ 建议审稿(待核实原文)
- #17 — Future AGI LLM评测工具对比(建议核验官网最新功能)
- #19 — LangChain & LangGraph Stateful Orchestration(建议核验原文配图代码)
📋 建议主题页更新
- LLM 推理框架选型页 → 合并 #1 #2 #3 → 添加 2026-06 时间戳
- RAG 系统工程页 → 合并 #5 #6 #7 → 添加论文链接和开源项目表
- AI Agent 框架选型页 → 合并 #9 #12 → 更新 2025年底最新框架对比
- MLOps/AgentOps 页 → 合并 #14 #15 → 添加 Agent Ops 概念定义
五、本次检索元数据
- 检索执行时间:2026-06-26 16:20 (UTC+8)
- 检索频率:每日 3 次中的第 2 次
- CSDN 来源分布:智能体开发者社区(adg) / AI Agent技术社区(agent) / ModelEngine / CSDN博客 / GitCode
- Substack 来源:Future AGI / Jam with AI / Aishwarya Srinivasan / The Nuanced Perspective
- 本轮总候选条目:~40 条(含重复去重后约 25 条独立来源)
- 高价值条目:20 条(A级以上)