知识库草稿:LLM 微调工程 · RAG 2026 演进 · Agent 安全 · 2026-06-11 下午
实例: Jay | 日期: 2026-06-11 | 检索范围: CSDN(严格筛选)、Substack、arXiv、AWS 官方博客
一、LLM Fine-tuning 深度工程(LoRA / QLoRA / DPO)
1. QLoRA 显存优化原理与源码级解析
来源线索:
- CSDN 高价值文:《Transformers 中的 QLoRA 实战与显存优化-原理源码解析》(blog.csdn.net/l35633/article/details/161148157)
- 覆盖 PyTorch 分页注意力、NF4 量化、梯度检查点;含核心代码段
- CSDN 高价值文:《LoRA/QLoRA/Adapter原理+手写代码,单卡微调7B模型》(blog.csdn.net/weixin_43726381/article/details/161061507)
- 标题即核心价值:全量微调 7B 需 90GB 显存 → LoRA 降至 16GB → QLoRA 再砍半至 8GB
- 数学推导到代码实现完整,含可运行代码
- CSDN 高价值文:《大模型微调实战:LoRA 与 QLoRA 技术详解》(blog.csdn.net/weixin_73435127/article/details/161422613)
- 附 LoraConfig 代码配置,含 task_type 参数说明
- AWS 官方博客:《炼石成丹:大语言模型微调实战系列(一)数据准备篇》(aws.amazon.com/cn/blogs/china/practical-series-on-fine-tuning-large-language-models-part-one)
- 数据扩增方法论:社交数据抓取 + 人工改写、LLM 生成扩增、Dify workflow 串联
技术要点提炼: - 全量微调 vs LoRA vs QLoRA 显存对比:7B 模型全量微调 90GB / LoRA 16GB / QLoRA 8GB(单卡 A10/A100 可跑) - QLoRA 三件套:NF4 量化(4-bit NormalFloat)+ 双重量化(quantize embedding+linear)+ 分页优化器(paged optimizer) - LoRA 核心:低秩分解矩阵 A∈R^(r×d) 和 B∈R^(d×r) 并行于原权重 W,梯度仅流经 LoRA 参数,显存占用大幅降低 - 数据准备流水线:数据抓取 → 格式标准化(Alpaca 格式:instruction/input/output)→ 质量过滤(LLM 自评 or 规则过滤)→ CoT 扩增(可选) - AlpaGasus 警示:仅用 9k 高质量数据微调 > 全部 52k 数据全量训练——低质量数据主动损害模型,而非中性噪音
工程价值: ⭐⭐⭐⭐⭐(含源码、环境、命令、实测数据)
复现路径: Python 3.10+ / transformers / peft / bitsandbytes / CUDA 11.8+
建议分类: LLM微调 LoRA QLoRA PEFT 显存优化 工程实践
2. Dify 2026 企业微调白皮书(LoRA 动态适配)
来源线索:
- CSDN:《Dify 2026微调实战白皮书:业内唯一支持LoRA...》(blog.csdn.net/CompiLume/article/details/160335261)
- Dify 2026 聚焦"可解释性微调"与"多粒度适配",不再将微调视为黑盒参数更新
- LoRA 动态适配机制:根据推理结果自适应调整 LoRA rank 和目标模块
评价: Dify 平台方视角,适合评估是否采用 Dify 作为微调管理平台;动态 LoRA 机制值得工程团队关注
标签: Dify LoRA 企业微调 2026
二、RAG 2026 工程演进:混合检索 · 重排序 · 防幻觉
1. 混合检索 + CrossEncoder 重排序实战(源码级)
高价值 CSDN 文章:
- 《2026最新RAG实战避坑指南》(gitcode.csdn.net/6a272f8910ee7a33f2798075.html)
- 完整可运行源码:混合检索(BM25 + 向量)→ CrossEncoder 重排序 → 防幻觉 Prompt,全流程
- 实测依赖:langchain==0.2.10 / faiss-cpu==1.8.0 / sentence-transformers==3.0.0 / rank-bm25==0.2.2
- 双路召回权重:weights=[0.5, 0.5],兼顾语义和关键词
- 核心代码片段(防重排序):
python
# CrossEncoder rerank
reranker = CrossEncoder(RERANK_MODEL)
pairs = [[query, doc.page_content] for doc in docs]
scores = reranker.predict(pairs)
scored_docs = sorted(zip(docs, scores), key=lambda x: x[1], reverse=True)
top_docs = [doc[0] for doc in scored_docs[:top_k]]
- 防幻觉 Prompt 约束(强约束四规则):仅基于参考知识库回答、无相关信息直接拒答、简洁不冗余
- 三大避坑点:文档 UTF-8 编码报错 / Embedding 模型版本兼容性 / Rerank 过滤重复切片
字节跳动面试题解析(源码级):
- 《字节高频面试题:RAG深度拆解》(gitcode.csdn.net/6a20d52610ee7a33f2776411.html)
- 面试逻辑:从"知识时效性差+幻觉"痛点 → 检索增强生成原理 → 离线索引构建(chunk_size=512, overlap=50)→ 在线相似度检索 → Prompt 拼接 → LLM 生成
- LangChain 源码:Chroma.from_documents(chunks, embedding=embeddings) + similarity_search(query, k=3)
- 工程经验总结:RAG 适合知识密集型 + 高准确性 + 知识频繁更新场景(法律咨询、企业知识库、医疗文献)
工程价值: ⭐⭐⭐⭐⭐(完整源码 + 依赖版本 + 避坑指南)
建议分类: RAG 混合检索 CrossEncoder 防幻觉 LangChain 工程实践
2. RAG 技术 2026 从"检索增强"到"上下文工程"
来源线索:
- CSDN:《2026年RAG技术深度解析:从检索增强生成到上下文工程》(blog.csdn.net/EnjoyEDU/article/details/161517300)
- 核心转变:数据质量优先、模块化设计、垂直领域深耕
- 多模态 RAG 融合视觉编码器输出与文本向量检索
评价: 偏概述,但点出了 2026 RAG 演进方向——从"有无"到"精耕"
标签: RAG 上下文工程 多模态RAG 2026趋势
三、Substack 高价值线索
1. OWASP Top 10 AI/LLM/Agent 安全漏洞 2026(必读工程安全指南)
来源: Alex Ewerlof(Substack,open.substack.com/pub/alexewerlof/p/owasp-top-10-ai-llm-agents)
- 主题: OWASP Top 10 for LLMs(LLM01–LLM10)+ OWASP Top 10 for Agents(ASI01–ASI10)
- 核心洞察:
- Prompt Injection 本质:LLM 中 instruction(system prompt + function calls)与 data(user input + RAG docs)拼接为单一字符串,边界混淆导致指令注入
- Agent 风险叠加:Agent 在循环中运行 + 工具权限大 + 监督少 = 潜在财务灾难
- 缓解措施:Semantic Firewall(隔离约束模型)+ Principle of Least Privilege(限制工具权限)
- 工程适用场景: AI 应用安全审计、Agent 系统红队、Prompt 安全设计
可信度: 高(OWASP 官方,业界共识安全标准)
后续行动建议: 核验 owasp.org 官方页面,补充实际漏洞 PoC 示例
标签: AI安全 OWASP Prompt注入 Agent安全 生产防护
2. 2026 构建 AI Agent 完整指南(工程路线图)
来源: Siddharth Saladi(Substack,sidsaladi.substack.com/p/agent-frameworks-101-the-complete)
- 何时需要 Agent(不适合的场景):
- ❌ 任务步骤固定可预测
- ❌ 不需要 LLM 决策下一步
- ❌ prompt → response 足够
- ❌ 工作流可硬编码
- 何时需要 Agent(适合的场景):
- ✅ 需要多步推理 + 动态决策
- ✅ 工具调用(搜索、代码执行、数据库)
- ✅ 结果验证后再决定下一步
- 评价: 偏方法论,但框架选型决策树有工程参考价值
来源: Emerging AI(Substack,emergingai.substack.com/p/how-ai-agents-are-built-in-may-2026)
- Agent 构建路径:创建文件夹 → 写 AGENTS.md → 定义任务 → 加 Memory → 连工具 → 建循环 → 加 Guardrails → Evals 测试
- 2026 工具栈提示: 不依赖 hype,关注可测试性和实际输出质量
- 评价: 实操路线图,适合 AI Engineer 入门
标签: Agent工程 框架选型 Guardrails Evals 2026
3. 生产级 AI Agent 团队实战(5 项目验证)
来源: Alexey Grigorev(Substack AllthingsAI,alexeyondata.substack.com)
- 主题: 11 个 Build Production AI Agents workshops(RAG / MCP / Guardrails / Evaluation)
- ** workshops 列表(高价值工程资源):
1. RAG + MCP(Model Context Protocol)
2. Guardrails for AI Agents(安全约束)
3. YouTube AI Agent with Temporal
4. Evaluation & Evals(生产级评测)
- Alexey 团队背景: DataTalks.Club / LLM Zoomcamp,主导多个生产 AI 项目
- 评价:** 工程导向 workshop 合集,适合系统性构建 Agent 能力
标签: Agent工程 MCP Guardrails Evaluation workshop
四、本次未收录 / 需进一步核验
| 条目 | 原因 | 后续行动 |
|---|---|---|
| 《多模态世界模型》CSDN 概述文 | 概念为主,无工程细节 | 核验 arXiv 原文 |
| ACL 2026 多模态关系推理 | 仅摘要,需核验论文 | 检索 arXiv 是否有 ACL 2026 accepted papers |
| 美团 CVPR 2026 OneThinker | 新闻类,无复现细节 | 核验 arXiv 论文 |
| Dify 2026 多模态集成 | 平台宣传向,工程细节有限 | 仅作参考 |
五、本次检索元信息
| 维度 | 内容 |
|---|---|
| 检索时间 | 2026-06-11 12:20(UTC+8) |
| 实例 | Jay |
| 本轮写入 | /shared/research-kb/inbox/jay/2026-06-11-finetuning-rag-engineering.md |
| 标签 | LLM微调 LoRA QLoRA RAG 混合检索 OWASP Agent安全 |
| 精读建议 | QLoRA 源码文(含实测命令)、RAG 避坑指南(含完整依赖版本) |
| 审稿建议 | OWASP 官方页面核验 + arXiv 论文验证 |
| 主题页更新 | LLM微调 RAG Agent工程 AI安全 |