研究知识库草稿 · Jay · 2026-06-15 晚间批次
本次主题
CSDN 高价值工程实践(QLoRA 医疗微调 / 七阶段微调工程系列 / MLOps 2025 全解 / DeepSeek RAG微调实战手册)+ Substack 技术洞察(Addy Osmani LLM工作流 / Cameron Wolfe PEFT深度解析 / RAG 2026 五项突破 / GEAR Graph-RAG)
一、CSDN 高价值条目
条目 J01:使用 QLoRA 微调医疗领域 LLM:专业数据集处理与评估(CSDN)
- 来源:https://blog.csdn.net/gitblog_00170/article/details/155740476
- 发布日期:2025(推断)
- 类型:垂直领域微调实战 / 数据工程
- 可信度:⭐⭐⭐⭐(CSDN原创,有具体命令和环境配置)
- 工程价值:⭐⭐⭐⭐⭐
- 核心技术点:
- QLoRA(Quantized Low-Rank Adaptation):4-bit NF4 量化 + LoRA 低秩适配,消费级GPU即可微调7B~65B参数模型
- 医疗数据集处理Pipeline:医学文本清洗 → 实体标准化 → Instruction-Tuning格式转换 → 评估指标选择
- 医疗场景评估指标:BLEU / ROUGE / MedQA专用基准 / 临床一致性
- 涉及版本:bitsandbytes(量化库),transformers,peft(HF PEFT框架)
- 关键命令:
- 量化配置:
BitsAndBytesConfig(load_in_4bit=True, bnb_4bit_quant_type="nf4") - LoRA配置:
LoraConfig(r=64, lora_alpha=128, target_modules=["q_proj","v_proj"])
- 量化配置:
- 复现价值:高,含完整数据处理流程和评估方案
- 标签:
QLoRA医疗LLMPEFT微调量化医疗NLP - 建议分类:LLM Fine-tuning / Medical AI
- 后续行动:对照 Hugging Face PEFT 官方文档确认2025-2026最新API变更
条目 J02:LLM Fine-Tuning 七阶段微调【工程系列】5.第四阶段:执行微调(CSDN)
- 来源:https://blog.csdn.net/Wufjsjjx/article/details/156981221
- 发布日期:2025(推断)
- 类型:系统工程实践 / 阶段化工程指南
- 可信度:⭐⭐⭐⭐(工程系列连载,内容系统,有明确的阶段编号)
- 工程价值:⭐⭐⭐⭐⭐
- 七阶段体系(Phase 1-7):
- Phase 1:数据准备与质量清洗
- Phase 2:预训练模型选型
- Phase 3:计算资源配置
- Phase 4(本文核心):执行微调
- Phase 5:评估与验证
- Phase 6:部署与监控
- Phase 7:持续迭代优化
- PEFT方法横向对比:
- LoRA:低秩矩阵更新,2025年事实标准
- QLoRA:量化+LoRA,显著降低显存占用
- DoRA:权重分解,数值精度更高
- 工程实践要点:梯度累积策略、学习率调度(warmup+cosine)、早停机制、权重保存策略
- 标签:
LLM Fine-tuningLoRAQLoRADoRAPEFT系统工程 - 建议分类:LLM Fine-tuning / MLOps Engineering
- 后续行动:归档至 Fine-tuning 主题页,作为系统性工程指南参考
条目 J03:2025年 MLOps 实战指南:从基础到前沿技术解析(CSDN)
- 来源:https://blog.csdn.net/weixin_42234168/article/details/160487182
- 发布日期:2025
- 类型:MLOps 全景指南 / 技术解析
- 可信度:⭐⭐⭐⭐(2025年内容,覆盖面广)
- 工程价值:⭐⭐⭐⭐
- 核心内容:
- MLOps 10大Python必备库:MLflow(实验跟踪)、Kubeflow(Pipeline编排)、Seldon(模型服务)、Prometheus+Grafana(监控)、Great Expectations(数据质量)、DVC(版本控制)、BentoML(部署封装)、Ray(分布式训练)、Optuna(超参搜索)、Evidently AI(数据漂移检测)
- 2025年新趋势:LLMOps概念兴起,模型监控从单纯指标观察转向深度耦合,模型部署需同时考虑计算效率和法规审计
- 涉及版本:MLflow≥3.0,Kubeflow v1.8,Ray 2.x
- 标签:
MLOpsLLMOps模型监控Pipeline2025 - 建议分类:MLOps / AI Engineering
- 后续行动:建议对照 Kubeflow/MLflow 官方博客确认2026年新版本特性
条目 J04:DeepSeek RAG 微调实战手册(附可运行代码+私有模型量化方案)(CSDN)
- 来源:https://blog.csdn.net/VarChat/article/details/161313168
- 发布日期:2026-05(最新)
- 类型:DeepSeek RAG + 量化实战
- 可信度:⭐⭐⭐⭐(2026年5月最新,含私有模型量化方案)
- 工程价值:⭐⭐⭐⭐⭐
- 核心内容:
- DeepSeek RAG 微调完整Pipeline:文档解析 → 向量检索优化 → LoRA微调 → 4-bit量化 → 生产部署
- 私有模型量化方案:4-bit量化 + GGUF格式转换 + vLLM推理引擎
- 企业级知识库构建难题解决思路
- 效果数据:量化后模型体积减少75%,显存需求降低60%,精度损失<2%
- 涉及框架:LLaMA-Factory / vLLM / LangChain / FlagEmbedding
- 复现价值:极高,含完整可运行代码和量化命令
- 标签:
DeepSeekRAGLoRA微调私有模型量化4-bit量化GGUF - 建议分类:LLM Fine-tuning / RAG / Enterprise AI
- 后续行动:纳入 DeepSeek 应用主题页,对照 DeepSeek 官方GitHub确认最新量化工具链版本
条目 J05:RAG 实战 - 从 Naive 到 Agentic 的完整演进路径(CSDN)
- 来源:https://blog.csdn.net/m0_59235945/article/details/161462014
- 发布日期:2026(最新)
- 类型:RAG 架构演进 / 工程路径
- 可信度:⭐⭐⭐⭐(2026年内容,含架构演进路径和代码示例)
- 工程价值:⭐⭐⭐⭐⭐
- 核心架构演进:
- Naive RAG(一代):检索→生成,简单Pipeline,幻觉率高
- Advanced RAG(二代):检索前/后处理,查询重写,Reranker,精排
- Modular RAG(三代):模块可插拔,多路召回,工具调用
- Agentic RAG(四代/2026主流):动态规划,多跳推理,自我纠错,多Agent协作
- 关键代码模块:
- 子问题分解(Query Decomposition)
- 知识图谱增强(KG-RAG)
- 多模态 RAG(图像+表格+文本联合检索)
- 标签:
Agentic RAGRAG演进多模态RAGKG-RAG2026 - 建议分类:RAG / AI Agent
- 后续行动:建议对照微软 GraphRAG、LlamaIndex 最新文档核验2026年框架集成方式
条目 J06:多模态 RAG 实战:构建工业级具身代理检索系统(CSDN)
- 来源:https://blog.csdn.net/weixin_31682031/article/details/161704890
- 发布日期:2026(最新)
- 类型:多模态 RAG / 具身AI 工程实践
- 可信度:⭐⭐⭐⭐(工程实践手记,有具体技术选型和代码问题记录)
- 工程价值:⭐⭐⭐⭐⭐
- 核心挑战:
- 多模态数据对齐:文本-图像-视频-点云统一向量空间
- 具身代理检索:机器人场景下的空间感知 + 语义检索联合
- 动态多模态Chunking:不同模态内容块的一致性管理
- 解决思路:
- CLIP/Florence-2 多模态编码器
- 跨模态注意力机制融合
- 代理逻辑外部化(避免硬编码)
- 适用场景:工业机器人、智能质检、具身智能研究
- 标签:
多模态RAG具身AI具身代理CLIP工业RAG - 建议分类:Multimodal RAG / Embodied AI / Engineering
- 后续行动:建议对照 具身智能 最新 arXiv 论文(如RT-2、PaLM-E后续)核验技术路线
条目 J07:企业大模型微调平台技术深度解析:从 SFT 到 RLHF 的策略对比(CSDN)
- 来源:https://blog.csdn.net/Agent_Sea/article/details/161486953
- 发布日期:2026(最新)
- 类型:平台工程 / 后训练策略
- 可信度:⭐⭐⭐⭐(2026年内容,聚焦企业级平台能力)
- 工程价值:⭐⭐⭐⭐⭐
- 核心观点:
- LoRA 在2025年成为大模型微调默认标准,全参数微调因算力需求过高很少被使用
- 微调策略覆盖度只是平台能力表层——更深层差异在于:数据管理能力、实验跟踪、模型版本管理、A/B测试、灰度发布
- SFT vs RLHF vs DPO vs GRPO 策略对比:
- SFT:监督微调,基础但稳定
- DPO:直接偏好优化,无需独立Reward Model
- GRPO:2026年新范式,通过相对评分强化学习,消除Reward Model依赖
- RLHF:PPO算法,全参数但算力成本高
- 标签:
SFTDPOGRPORLHF企业微调平台2026 - 建议分类:LLM Fine-tuning / Enterprise AI Platform
- 后续行动:建议对照 DeepSeek-R1 GRPO 论文核验相对评分机制实现细节
条目 J08:LLM Agent 记忆系统权威综述深度解读(CSDN)
- 来源:https://blog.csdn.net/qcx23/article/details/161904173
- 发布日期:2026(最新)
- 类型:LLM Agent 记忆系统 / 论文解读
- 可信度:⭐⭐⭐⭐⭐(明确标注论文来源,综述性质,有摘要和架构分析)
- 工程价值:⭐⭐⭐⭐⭐
- 核心发现:记忆架构对Agent性能的影响远超模型本身
- 记忆系统四要素:情景记忆 / 程序记忆 / 语义记忆 / 工作记忆
- 评估维度:记忆召回率 / 干扰抵抗 / 时效性 / 存储效率
- 标签:
LLM Agent记忆系统Agent架构记忆评估 - 建议分类:LLM Agent / Memory Systems
- 后续行动:精读原始论文,对照 MemGPT 开源实现验证工程可行性
二、Substack 高价值条目
条目 S01:My LLM Coding Workflow Going Into 2026(Addy Osmani · Elevate)
- 来源:https://addyo.substack.com/p/my-llm-coding-workflow-going-into
- 作者:Addy Osmani(Google Chrome/Lighthouse团队,AI工程实践者)
- 发布日期:2025年末/2026年初
- 可信度:⭐⭐⭐⭐⭐(Google工程师,一线实践经验,高互动量609 Likes)
- 核心观点:
- LLMs "reward existing best practices":清晰规格说明、良好测试、代码审查等在AI辅助编程中效果更显著
- 大段代码生成 → 一致性和架构问题 → "10个开发者没沟通"式结果
- 分块任务(spec→code→review)是维持AI可控性的关键
- 使用结构化方法(spec-driven)比自由生成更能保持代码架构一致性
- Jesse Vincent经验:spec驱动方法显著降低AI"脱轨"倾向
- 工程洞察:AI编码助手的70%问题(AI辅助编程的真实局限)
- 后续行动:纳入 AI辅助编程工程实践 主题页,关注 Addy Osmani 的 The 70% Problem 文章
- 标签:
AI辅助编程LLM工作流工程实践Prompt Engineering
条目 S02:Easily Train a Specialized LLM: PEFT, LoRA, QLoRA, LLaMA-Adapter(Cameron R. Wolfe · Newsletter)
- 来源:https://cameronrwolfe.substack.com/p/easily-train-a-specialized-llm-peft
- 作者:Cameron R. Wolfe(AI研究综述作者,数据工程背景)
- 发布日期:2024-2025(持续更新型综述)
- 可信度:⭐⭐⭐⭐⭐(高质量技术综述,引经据典,深度解析PEFT各方法)
- 核心内容:
- 为何PEFT必要:全参数训练需要多GPU + 昂贵硬件,普通从业者难以承担
- LoRA核心原理:保持预训练权重固定,只更新低秩矩阵(r维分解),参数量从d×d降至2×r×d
- QLoRA核心原理:4-bit NF4量化 + LoRA + 分片优化,65B模型可在单卡微调
- LLaMA-Adapter: prefix tuning 变体,在输入token前添加可学习prefix
- 主流框架:Hugging Face PEFT库、LLAM-Factory、Axolotl
- 效果对比:LoRA在多个下游任务上与全参数微调相当,但参数量减少100-1000倍
- 后续行动:对照 QLoRA原论文 核验NF4量化数学原理;对照HF PEFT官方文档确认最新API
- 标签:
PEFTLoRAQLoRALLaMA-Adapter参数高效微调综述
条目 S03:RAG Reimagined: 5 Breakthroughs You Should Know(Gradient Flow · Ben Lorica)
- 来源:https://gradientflow.substack.com/p/rag-reimagined-5-breakthroughs-you
- 作者:Ben Lorica(Gradient Flow,ML/AI数据领域资深分析师)
- 发布日期:2025-2026(持续跟踪型)
- 可信度:⭐⭐⭐⭐⭐(专业AI分析Newsletter,高质量行业洞察)
- 核心5项突破: 1. 推理时计算增强(Inference-time Compute):将RAG从静态Pipeline转变为动态自适应系统 2. 多模态融合(Multimodal RAG):支持文本+图像+视频+图数据联合检索 3. 向量数据库新架构(LanceDB v2):针对AI/ML workloads优化,支持多种数据类型 4. 可靠性增强:Snowflake AI Research指出即使专用模型在模糊/不足检索上下文时仍有挑战 5. 编排层智能化:自动化动态优化RAG各组件适配特定用例
- 技术洞察:Agentic RAG + 推理模型(o1-style reasoning)是2026年RAG演进主线
- 后续行动:对照 LanceDB 官方博客核验 v2 具体性能数据;建议纳入 RAG 2026趋势主题页
- 标签:
RAG多模态RAG推理时计算LanceDBAgentic RAG2026
条目 S04:RAG Beyond Text: A Comprehensive Overview of Multimodal RAG(AIExpJourney)
- 来源:https://aiexpjourney.substack.com/p/rag-beyond-text-a-comprehensive-overview
- 发布日期:2025-2026
- 可信度:⭐⭐⭐⭐(综述性质,有分类框架和技术路线图)
- 核心内容:
- 多模态RAG Pipeline:检索→模态对齐→融合→增强→生成→评估
- ** Taxonomy**:检索阶段优化、对齐方法(Score Fusion / Attention-based)、生成增强(CoT推理+源归属)
- 应用领域:医疗影像、工业检测、多模态客服、具身智能
- 评估框架:多模态检索质量 + 生成质量 + 跨模态一致性
- 后续行动:建议对照最新多模态RAG论文(如MM-RAG Survey 2025)补充评估基准细节
- 标签:
多模态RAGRAG综述模态对齐应用领域
条目 S05:GEAR: New Graph-RAG Technique Boost LLMs in Multi-hop Question-Answering(BDTechTalks)
- 来源:https://bdtechtalks.substack.com/p/new-graph-rag-technique-boost-llms
- 作者:BDTechTalks(AI/ML技术分析平台)
- 发布日期:2025
- 可信度:⭐⭐⭐⭐(技术解读型,引用华为诺亚方舟实验室论文)
- 核心内容:
- GEAR(Graph-Enhanced Retrieval):华为诺亚方舟实验室提出的Graph-RAG新方法
- 核心机制:
- 自动从检索文档中提取三元组构建图表示
- 使用Beam Search迭代构建和丰富图结构
- LLM在图上推理比纯文本更容易回答复杂多跳问题
- 多跳扩展(Multi-step Extension):Agent迭代交互图检索器,逐步构建答案所需的信息图
- 适用场景:复杂查询(如"谁在X公司工作并参与Y项目?"),需要跨多文档信息整合
- vs Naive RAG:Naive RAG在多跳场景下召回和推理质量显著下降,GEAR通过图结构改善
- 后续行动:对照原论文核验实验细节;建议纳入 Graph-RAG 技术跟踪
- 标签:
Graph-RAGGEAR多跳推理华为诺亚方舟知识图谱
条目 S06:Top LLM, RAG and Agent Updates of This Week (March Week 1, 2026)(AIXFunda)
- 来源:https://aixfunda.substack.com/p/top-llm-rag-and-agent-updates-of-5f9
- 发布日期:2026-03(每周跟踪型)
- 可信度:⭐⭐⭐⭐(周更型快讯,覆盖面广但深度有限)
- 重要更新摘要:
- Qwen3.5 Small Models:阿里通义小模型在手机上超越大模型
- GPT-5.3 Instant:OpenAI发布,减少"cringe"和错误
- Gemini 3.1 Flash-Lite:Google DeepMind最快Flash模型
- Codex Desktop App for Windows:OpenAI推出Windows开发者版
- GPT-5.4:OpenAI推出,支持原生计算机控制(Native Computer Control)
- Allen Institute Olmo Hybrid 7B:Gated DeltaNet新架构,75%注意力计算削减
- 标签:
LLM周报QwenGPT-5GeminiAgent2026 - 后续行动:标记为行业动态,对应主题页补充
条目 S07:Multimodal RAG — Intuitively and Exhaustively Explained(IAEE)
- 来源:https://iaee.substack.com/p/multimodal-rag-intuitively-and-exhaustively
- 发布日期:2025-2026
- 可信度:⭐⭐⭐⭐(图文并茂的深度解释型文章)
- 核心内容:
- 多模态RAG允许AI模型对接文本、图像、视频等多种数据存储
- 关键技术挑战:跨模态对齐(文本向量↔图像向量↔视频向量)
- CLIP/VLAD等方法在多模态检索中的角色
- 与传统文本RAG的架构差异:需要模态特定编码器 + 融合层
- 标签:
多模态RAGCLIP跨模态对齐技术解释
三、分类标签汇总
| 标签 | 来源分布 |
|---|---|
LLM Fine-tuning |
CSDN(J01/J02/J04/J07) |
QLoRA / LoRA / DoRA / PEFT |
CSDN(J01/J02)+ Substack(S02) |
RAG / Agentic RAG |
CSDN(J05/J06)+ Substack(S03/S04/S07) |
多模态RAG |
CSDN(J06)+ Substack(S04/S07) |
Graph-RAG / KG-RAG |
Substack(S05) |
LLM Agent / 记忆系统 |
CSDN(J08)+ Substack(S01) |
MLOps / LLMOps |
CSDN(J03) |
DeepSeek |
CSDN(J04) |
2026趋势 |
Substack(S03/S06)+ CSDN(J05/J07) |
AI辅助编程 |
Substack(S01) |
四、本轮高价值条目(Tier-1,供精读/审稿)
| 优先级 | 条目 | 理由 |
|---|---|---|
| 🔴 精读 | J04 DeepSeek RAG微调实战手册 | 完整Pipeline+量化代码,2026-05最新 |
| 🔴 精读 | J07 企业微调平台深度解析(GRPO趋势) | 2026新范式GRPO首次系统整理 |
| 🔴 精读 | S03 RAG Reimagined(5项突破) | Ben Lorica专业分析,RAG 2026主线 |
| 🟡 审稿 | S02 Cameron Wolfe PEFT深度解析 | PEFT方法论完整,适合纳入Fine-tuning主题页 |
| 🟡 审稿 | J06 多模态RAG具身代理 | 工业场景具体,复现价值高 |
| 🟡 审稿 | J08 LLM Agent记忆系统 | 综述+架构分析,论文来源明确 |
| 🟢 归档 | S05 GEAR Graph-RAG | 华为论文跟踪,补充Graph-RAG分支 |
| 🟢 归档 | S06 AIXFunda周报 | 行业动态,标记趋势用 |
五、建议写入路径
| 内容 | 目标路径 |
|---|---|
| CSDN Fine-tuning条目(J01/J02/J04/J07) | Fine-tuning 主题页草稿 |
| RAG 2026综合分析(J05/J06+S03/S04/S07) | RAG 2026趋势主题页 |
| 多模态RAG专题(J06+S04/S07) | Multimodal RAG 专题 |
| Graph-RAG技术跟踪(S05) | RAG技术树 Graph-RAG分支 |
| LLM Agent记忆系统(J08) | Agent架构主题页 |
| MLOps 2025全景(J03) | MLOps/LLMOps 主题页 |
| Substack PEFT深度解析(S02) | PEFT/Fine-tuning 主题页 |
| Addy Osmani AI编程洞察(S01) | AI辅助编程工程实践 主题页 |
| 行业周报(S06) | LLM周报动态跟踪 |
六、是否需要精读/审稿/主题页更新
- 精读:2篇(DeepSeek RAG微调手册 + GRPO趋势分析)
- 审稿:4篇(PEFT深度解析 + 多模态RAG具身代理 + Agent记忆系统 + RAG 5项突破)
- 主题页更新:Fine-tuning主题页(QLoRA/LoRA/DoRA体系)、RAG 2026趋势主题页、LLM Agent主题页、MLOps/LLMOps主题页
- GitHub写入:本次不执行(遵守并发规则),草稿已写入
/shared/research-kb/inbox/jay/