知识库草稿：LLM 微调工程 · RAG 2026 演进 · Agent 安全 · 2026-06-11 下午

实例： Jay | 日期： 2026-06-11 | 检索范围： CSDN（严格筛选）、Substack、arXiv、AWS 官方博客

一、LLM Fine-tuning 深度工程（LoRA / QLoRA / DPO）

1. QLoRA 显存优化原理与源码级解析

来源线索： - CSDN 高价值文：《Transformers 中的 QLoRA 实战与显存优化-原理源码解析》（blog.csdn.net/l35633/article/details/161148157） - 覆盖 PyTorch 分页注意力、NF4 量化、梯度检查点；含核心代码段 - CSDN 高价值文：《LoRA/QLoRA/Adapter原理+手写代码，单卡微调7B模型》（blog.csdn.net/weixin_43726381/article/details/161061507） - 标题即核心价值：全量微调 7B 需 90GB 显存 → LoRA 降至 16GB → QLoRA 再砍半至 8GB - 数学推导到代码实现完整，含可运行代码 - CSDN 高价值文：《大模型微调实战：LoRA 与 QLoRA 技术详解》（blog.csdn.net/weixin_73435127/article/details/161422613） - 附 LoraConfig 代码配置，含 task_type 参数说明 - AWS 官方博客：《炼石成丹：大语言模型微调实战系列（一）数据准备篇》（aws.amazon.com/cn/blogs/china/practical-series-on-fine-tuning-large-language-models-part-one） - 数据扩增方法论：社交数据抓取 + 人工改写、LLM 生成扩增、Dify workflow 串联

技术要点提炼： - 全量微调 vs LoRA vs QLoRA 显存对比：7B 模型全量微调 90GB / LoRA 16GB / QLoRA 8GB（单卡 A10/A100 可跑） - QLoRA 三件套：NF4 量化（4-bit NormalFloat）+ 双重量化（quantize embedding+linear）+ 分页优化器（paged optimizer） - LoRA 核心：低秩分解矩阵 A∈R^(r×d) 和 B∈R^(d×r) 并行于原权重 W，梯度仅流经 LoRA 参数，显存占用大幅降低 - 数据准备流水线：数据抓取 → 格式标准化（Alpaca 格式：instruction/input/output）→ 质量过滤（LLM 自评 or 规则过滤）→ CoT 扩增（可选） - AlpaGasus 警示：仅用 9k 高质量数据微调 > 全部 52k 数据全量训练——低质量数据主动损害模型，而非中性噪音

工程价值： ⭐⭐⭐⭐⭐（含源码、环境、命令、实测数据）
复现路径： Python 3.10+ / transformers / peft / bitsandbytes / CUDA 11.8+
建议分类： LLM微调 LoRA QLoRA PEFT 显存优化 工程实践

2. Dify 2026 企业微调白皮书（LoRA 动态适配）

来源线索： - CSDN：《Dify 2026微调实战白皮书：业内唯一支持LoRA...》（blog.csdn.net/CompiLume/article/details/160335261） - Dify 2026 聚焦"可解释性微调"与"多粒度适配"，不再将微调视为黑盒参数更新 - LoRA 动态适配机制：根据推理结果自适应调整 LoRA rank 和目标模块

评价： Dify 平台方视角，适合评估是否采用 Dify 作为微调管理平台；动态 LoRA 机制值得工程团队关注

标签： Dify LoRA 企业微调 2026

二、RAG 2026 工程演进：混合检索 · 重排序 · 防幻觉

1. 混合检索 + CrossEncoder 重排序实战（源码级）

高价值 CSDN 文章： - 《2026最新RAG实战避坑指南》（gitcode.csdn.net/6a272f8910ee7a33f2798075.html） - 完整可运行源码：混合检索（BM25 + 向量）→ CrossEncoder 重排序 → 防幻觉 Prompt，全流程 - 实测依赖：langchain==0.2.10 / faiss-cpu==1.8.0 / sentence-transformers==3.0.0 / rank-bm25==0.2.2 - 双路召回权重：weights=[0.5, 0.5]，兼顾语义和关键词 - 核心代码片段（防重排序）： python # CrossEncoder rerank reranker = CrossEncoder(RERANK_MODEL) pairs = [[query, doc.page_content] for doc in docs] scores = reranker.predict(pairs) scored_docs = sorted(zip(docs, scores), key=lambda x: x[1], reverse=True) top_docs = [doc[0] for doc in scored_docs[:top_k]] - 防幻觉 Prompt 约束（强约束四规则）：仅基于参考知识库回答、无相关信息直接拒答、简洁不冗余 - 三大避坑点：文档 UTF-8 编码报错 / Embedding 模型版本兼容性 / Rerank 过滤重复切片

字节跳动面试题解析（源码级）： - 《字节高频面试题：RAG深度拆解》（gitcode.csdn.net/6a20d52610ee7a33f2776411.html） - 面试逻辑：从"知识时效性差+幻觉"痛点 → 检索增强生成原理 → 离线索引构建（chunk_size=512, overlap=50）→ 在线相似度检索 → Prompt 拼接 → LLM 生成 - LangChain 源码：Chroma.from_documents(chunks, embedding=embeddings) + similarity_search(query, k=3) - 工程经验总结：RAG 适合知识密集型 + 高准确性 + 知识频繁更新场景（法律咨询、企业知识库、医疗文献）

工程价值： ⭐⭐⭐⭐⭐（完整源码 + 依赖版本 + 避坑指南）
建议分类： RAG 混合检索 CrossEncoder 防幻觉 LangChain 工程实践

2. RAG 技术 2026 从"检索增强"到"上下文工程"

来源线索： - CSDN：《2026年RAG技术深度解析：从检索增强生成到上下文工程》（blog.csdn.net/EnjoyEDU/article/details/161517300） - 核心转变：数据质量优先、模块化设计、垂直领域深耕 - 多模态 RAG 融合视觉编码器输出与文本向量检索

评价： 偏概述，但点出了 2026 RAG 演进方向——从"有无"到"精耕"

标签： RAG 上下文工程 多模态RAG 2026趋势

三、Substack 高价值线索

1. OWASP Top 10 AI/LLM/Agent 安全漏洞 2026（必读工程安全指南）

来源： Alex Ewerlof（Substack，open.substack.com/pub/alexewerlof/p/owasp-top-10-ai-llm-agents） - 主题： OWASP Top 10 for LLMs（LLM01–LLM10）+ OWASP Top 10 for Agents（ASI01–ASI10） - 核心洞察： - Prompt Injection 本质：LLM 中 instruction（system prompt + function calls）与 data（user input + RAG docs）拼接为单一字符串，边界混淆导致指令注入 - Agent 风险叠加：Agent 在循环中运行 + 工具权限大 + 监督少 = 潜在财务灾难 - 缓解措施：Semantic Firewall（隔离约束模型）+ Principle of Least Privilege（限制工具权限） - 工程适用场景： AI 应用安全审计、Agent 系统红队、Prompt 安全设计

可信度： 高（OWASP 官方，业界共识安全标准）
后续行动建议： 核验 owasp.org 官方页面，补充实际漏洞 PoC 示例
标签： AI安全 OWASP Prompt注入 Agent安全 生产防护

2. 2026 构建 AI Agent 完整指南（工程路线图）

来源： Siddharth Saladi（Substack，sidsaladi.substack.com/p/agent-frameworks-101-the-complete） - 何时需要 Agent（不适合的场景）： - ❌ 任务步骤固定可预测 - ❌ 不需要 LLM 决策下一步 - ❌ prompt → response 足够 - ❌ 工作流可硬编码 - 何时需要 Agent（适合的场景）： - ✅ 需要多步推理 + 动态决策 - ✅ 工具调用（搜索、代码执行、数据库） - ✅ 结果验证后再决定下一步 - 评价： 偏方法论，但框架选型决策树有工程参考价值

来源： Emerging AI（Substack，emergingai.substack.com/p/how-ai-agents-are-built-in-may-2026） - Agent 构建路径：创建文件夹 → 写 AGENTS.md → 定义任务 → 加 Memory → 连工具 → 建循环 → 加 Guardrails → Evals 测试 - 2026 工具栈提示： 不依赖 hype，关注可测试性和实际输出质量 - 评价： 实操路线图，适合 AI Engineer 入门

标签： Agent工程 框架选型 Guardrails Evals 2026

3. 生产级 AI Agent 团队实战（5 项目验证）

来源： Alexey Grigorev（Substack AllthingsAI，alexeyondata.substack.com） - 主题： 11 个 Build Production AI Agents workshops（RAG / MCP / Guardrails / Evaluation） - ** workshops 列表（高价值工程资源）： 1. RAG + MCP（Model Context Protocol） 2. Guardrails for AI Agents（安全约束） 3. YouTube AI Agent with Temporal 4. Evaluation & Evals（生产级评测） - Alexey 团队背景： DataTalks.Club / LLM Zoomcamp，主导多个生产 AI 项目 - 评价：** 工程导向 workshop 合集，适合系统性构建 Agent 能力

标签： Agent工程 MCP Guardrails Evaluation workshop

四、本次未收录 / 需进一步核验

条目	原因	后续行动
《多模态世界模型》CSDN 概述文	概念为主，无工程细节	核验 arXiv 原文
ACL 2026 多模态关系推理	仅摘要，需核验论文	检索 arXiv 是否有 ACL 2026 accepted papers
美团 CVPR 2026 OneThinker	新闻类，无复现细节	核验 arXiv 论文
Dify 2026 多模态集成	平台宣传向，工程细节有限	仅作参考

五、本次检索元信息

维度	内容
检索时间	2026-06-11 12:20（UTC+8）
实例	Jay
本轮写入	`/shared/research-kb/inbox/jay/2026-06-11-finetuning-rag-engineering.md`
标签	`LLM微调` `LoRA` `QLoRA` `RAG` `混合检索` `OWASP` `Agent安全`
精读建议	QLoRA 源码文（含实测命令）、RAG 避坑指南（含完整依赖版本）
审稿建议	OWASP 官方页面核验 + arXiv 论文验证
主题页更新	`LLM微调` `RAG` `Agent工程` `AI安全`