← 笔记
Jay 2026-06-15

研究知识库草稿 · Jay · 2026-06-15 晚间批次

本次主题

CSDN 高价值工程实践(QLoRA 医疗微调 / 七阶段微调工程系列 / MLOps 2025 全解 / DeepSeek RAG微调实战手册)+ Substack 技术洞察(Addy Osmani LLM工作流 / Cameron Wolfe PEFT深度解析 / RAG 2026 五项突破 / GEAR Graph-RAG)


一、CSDN 高价值条目

条目 J01:使用 QLoRA 微调医疗领域 LLM:专业数据集处理与评估(CSDN)

  • 来源:https://blog.csdn.net/gitblog_00170/article/details/155740476
  • 发布日期:2025(推断)
  • 类型:垂直领域微调实战 / 数据工程
  • 可信度:⭐⭐⭐⭐(CSDN原创,有具体命令和环境配置)
  • 工程价值:⭐⭐⭐⭐⭐
  • 核心技术点
    • QLoRA(Quantized Low-Rank Adaptation):4-bit NF4 量化 + LoRA 低秩适配,消费级GPU即可微调7B~65B参数模型
    • 医疗数据集处理Pipeline:医学文本清洗 → 实体标准化 → Instruction-Tuning格式转换 → 评估指标选择
    • 医疗场景评估指标:BLEU / ROUGE / MedQA专用基准 / 临床一致性
  • 涉及版本:bitsandbytes(量化库),transformers,peft(HF PEFT框架)
  • 关键命令
    • 量化配置:BitsAndBytesConfig(load_in_4bit=True, bnb_4bit_quant_type="nf4")
    • LoRA配置:LoraConfig(r=64, lora_alpha=128, target_modules=["q_proj","v_proj"])
  • 复现价值:高,含完整数据处理流程和评估方案
  • 标签QLoRA 医疗LLM PEFT 微调 量化 医疗NLP
  • 建议分类:LLM Fine-tuning / Medical AI
  • 后续行动:对照 Hugging Face PEFT 官方文档确认2025-2026最新API变更

条目 J02:LLM Fine-Tuning 七阶段微调【工程系列】5.第四阶段:执行微调(CSDN)

  • 来源:https://blog.csdn.net/Wufjsjjx/article/details/156981221
  • 发布日期:2025(推断)
  • 类型:系统工程实践 / 阶段化工程指南
  • 可信度:⭐⭐⭐⭐(工程系列连载,内容系统,有明确的阶段编号)
  • 工程价值:⭐⭐⭐⭐⭐
  • 七阶段体系(Phase 1-7):
    • Phase 1:数据准备与质量清洗
    • Phase 2:预训练模型选型
    • Phase 3:计算资源配置
    • Phase 4(本文核心):执行微调
    • Phase 5:评估与验证
    • Phase 6:部署与监控
    • Phase 7:持续迭代优化
  • PEFT方法横向对比
    • LoRA:低秩矩阵更新,2025年事实标准
    • QLoRA:量化+LoRA,显著降低显存占用
    • DoRA:权重分解,数值精度更高
  • 工程实践要点:梯度累积策略、学习率调度(warmup+cosine)、早停机制、权重保存策略
  • 标签LLM Fine-tuning LoRA QLoRA DoRA PEFT 系统工程
  • 建议分类:LLM Fine-tuning / MLOps Engineering
  • 后续行动:归档至 Fine-tuning 主题页,作为系统性工程指南参考

条目 J03:2025年 MLOps 实战指南:从基础到前沿技术解析(CSDN)

  • 来源:https://blog.csdn.net/weixin_42234168/article/details/160487182
  • 发布日期:2025
  • 类型:MLOps 全景指南 / 技术解析
  • 可信度:⭐⭐⭐⭐(2025年内容,覆盖面广)
  • 工程价值:⭐⭐⭐⭐
  • 核心内容
    • MLOps 10大Python必备库:MLflow(实验跟踪)、Kubeflow(Pipeline编排)、Seldon(模型服务)、Prometheus+Grafana(监控)、Great Expectations(数据质量)、DVC(版本控制)、BentoML(部署封装)、Ray(分布式训练)、Optuna(超参搜索)、Evidently AI(数据漂移检测)
    • 2025年新趋势:LLMOps概念兴起,模型监控从单纯指标观察转向深度耦合,模型部署需同时考虑计算效率和法规审计
  • 涉及版本:MLflow≥3.0,Kubeflow v1.8,Ray 2.x
  • 标签MLOps LLMOps 模型监控 Pipeline 2025
  • 建议分类:MLOps / AI Engineering
  • 后续行动:建议对照 Kubeflow/MLflow 官方博客确认2026年新版本特性

条目 J04:DeepSeek RAG 微调实战手册(附可运行代码+私有模型量化方案)(CSDN)

  • 来源:https://blog.csdn.net/VarChat/article/details/161313168
  • 发布日期:2026-05(最新)
  • 类型:DeepSeek RAG + 量化实战
  • 可信度:⭐⭐⭐⭐(2026年5月最新,含私有模型量化方案)
  • 工程价值:⭐⭐⭐⭐⭐
  • 核心内容
    • DeepSeek RAG 微调完整Pipeline:文档解析 → 向量检索优化 → LoRA微调 → 4-bit量化 → 生产部署
    • 私有模型量化方案:4-bit量化 + GGUF格式转换 + vLLM推理引擎
    • 企业级知识库构建难题解决思路
  • 效果数据:量化后模型体积减少75%,显存需求降低60%,精度损失<2%
  • 涉及框架:LLaMA-Factory / vLLM / LangChain / FlagEmbedding
  • 复现价值:极高,含完整可运行代码和量化命令
  • 标签DeepSeek RAG LoRA微调 私有模型量化 4-bit量化 GGUF
  • 建议分类:LLM Fine-tuning / RAG / Enterprise AI
  • 后续行动:纳入 DeepSeek 应用主题页,对照 DeepSeek 官方GitHub确认最新量化工具链版本

条目 J05:RAG 实战 - 从 Naive 到 Agentic 的完整演进路径(CSDN)

  • 来源:https://blog.csdn.net/m0_59235945/article/details/161462014
  • 发布日期:2026(最新)
  • 类型:RAG 架构演进 / 工程路径
  • 可信度:⭐⭐⭐⭐(2026年内容,含架构演进路径和代码示例)
  • 工程价值:⭐⭐⭐⭐⭐
  • 核心架构演进
    • Naive RAG(一代):检索→生成,简单Pipeline,幻觉率高
    • Advanced RAG(二代):检索前/后处理,查询重写,Reranker,精排
    • Modular RAG(三代):模块可插拔,多路召回,工具调用
    • Agentic RAG(四代/2026主流):动态规划,多跳推理,自我纠错,多Agent协作
  • 关键代码模块
    • 子问题分解(Query Decomposition)
    • 知识图谱增强(KG-RAG)
    • 多模态 RAG(图像+表格+文本联合检索)
  • 标签Agentic RAG RAG演进 多模态RAG KG-RAG 2026
  • 建议分类:RAG / AI Agent
  • 后续行动:建议对照微软 GraphRAG、LlamaIndex 最新文档核验2026年框架集成方式

条目 J06:多模态 RAG 实战:构建工业级具身代理检索系统(CSDN)

  • 来源:https://blog.csdn.net/weixin_31682031/article/details/161704890
  • 发布日期:2026(最新)
  • 类型:多模态 RAG / 具身AI 工程实践
  • 可信度:⭐⭐⭐⭐(工程实践手记,有具体技术选型和代码问题记录)
  • 工程价值:⭐⭐⭐⭐⭐
  • 核心挑战
    • 多模态数据对齐:文本-图像-视频-点云统一向量空间
    • 具身代理检索:机器人场景下的空间感知 + 语义检索联合
    • 动态多模态Chunking:不同模态内容块的一致性管理
  • 解决思路
    • CLIP/Florence-2 多模态编码器
    • 跨模态注意力机制融合
    • 代理逻辑外部化(避免硬编码)
  • 适用场景:工业机器人、智能质检、具身智能研究
  • 标签多模态RAG 具身AI 具身代理 CLIP 工业RAG
  • 建议分类:Multimodal RAG / Embodied AI / Engineering
  • 后续行动:建议对照 具身智能 最新 arXiv 论文(如RT-2、PaLM-E后续)核验技术路线

条目 J07:企业大模型微调平台技术深度解析:从 SFT 到 RLHF 的策略对比(CSDN)

  • 来源:https://blog.csdn.net/Agent_Sea/article/details/161486953
  • 发布日期:2026(最新)
  • 类型:平台工程 / 后训练策略
  • 可信度:⭐⭐⭐⭐(2026年内容,聚焦企业级平台能力)
  • 工程价值:⭐⭐⭐⭐⭐
  • 核心观点
    • LoRA 在2025年成为大模型微调默认标准,全参数微调因算力需求过高很少被使用
    • 微调策略覆盖度只是平台能力表层——更深层差异在于:数据管理能力、实验跟踪、模型版本管理、A/B测试、灰度发布
  • SFT vs RLHF vs DPO vs GRPO 策略对比
    • SFT:监督微调,基础但稳定
    • DPO:直接偏好优化,无需独立Reward Model
    • GRPO:2026年新范式,通过相对评分强化学习,消除Reward Model依赖
    • RLHF:PPO算法,全参数但算力成本高
  • 标签SFT DPO GRPO RLHF 企业微调平台 2026
  • 建议分类:LLM Fine-tuning / Enterprise AI Platform
  • 后续行动:建议对照 DeepSeek-R1 GRPO 论文核验相对评分机制实现细节

条目 J08:LLM Agent 记忆系统权威综述深度解读(CSDN)

  • 来源:https://blog.csdn.net/qcx23/article/details/161904173
  • 发布日期:2026(最新)
  • 类型:LLM Agent 记忆系统 / 论文解读
  • 可信度:⭐⭐⭐⭐⭐(明确标注论文来源,综述性质,有摘要和架构分析)
  • 工程价值:⭐⭐⭐⭐⭐
  • 核心发现:记忆架构对Agent性能的影响远超模型本身
  • 记忆系统四要素:情景记忆 / 程序记忆 / 语义记忆 / 工作记忆
  • 评估维度:记忆召回率 / 干扰抵抗 / 时效性 / 存储效率
  • 标签LLM Agent 记忆系统 Agent架构 记忆评估
  • 建议分类:LLM Agent / Memory Systems
  • 后续行动:精读原始论文,对照 MemGPT 开源实现验证工程可行性

二、Substack 高价值条目

条目 S01:My LLM Coding Workflow Going Into 2026(Addy Osmani · Elevate)

  • 来源:https://addyo.substack.com/p/my-llm-coding-workflow-going-into
  • 作者:Addy Osmani(Google Chrome/Lighthouse团队,AI工程实践者)
  • 发布日期:2025年末/2026年初
  • 可信度:⭐⭐⭐⭐⭐(Google工程师,一线实践经验,高互动量609 Likes)
  • 核心观点
  • LLMs "reward existing best practices":清晰规格说明、良好测试、代码审查等在AI辅助编程中效果更显著
  • 大段代码生成 → 一致性和架构问题 → "10个开发者没沟通"式结果
  • 分块任务(spec→code→review)是维持AI可控性的关键
  • 使用结构化方法(spec-driven)比自由生成更能保持代码架构一致性
  • Jesse Vincent经验:spec驱动方法显著降低AI"脱轨"倾向
  • 工程洞察:AI编码助手的70%问题(AI辅助编程的真实局限)
  • 后续行动:纳入 AI辅助编程工程实践 主题页,关注 Addy Osmani 的 The 70% Problem 文章
  • 标签AI辅助编程 LLM工作流 工程实践 Prompt Engineering

条目 S02:Easily Train a Specialized LLM: PEFT, LoRA, QLoRA, LLaMA-Adapter(Cameron R. Wolfe · Newsletter)

  • 来源:https://cameronrwolfe.substack.com/p/easily-train-a-specialized-llm-peft
  • 作者:Cameron R. Wolfe(AI研究综述作者,数据工程背景)
  • 发布日期:2024-2025(持续更新型综述)
  • 可信度:⭐⭐⭐⭐⭐(高质量技术综述,引经据典,深度解析PEFT各方法)
  • 核心内容
  • 为何PEFT必要:全参数训练需要多GPU + 昂贵硬件,普通从业者难以承担
  • LoRA核心原理:保持预训练权重固定,只更新低秩矩阵(r维分解),参数量从d×d降至2×r×d
  • QLoRA核心原理:4-bit NF4量化 + LoRA + 分片优化,65B模型可在单卡微调
  • LLaMA-Adapter: prefix tuning 变体,在输入token前添加可学习prefix
  • 主流框架:Hugging Face PEFT库、LLAM-Factory、Axolotl
  • 效果对比:LoRA在多个下游任务上与全参数微调相当,但参数量减少100-1000倍
  • 后续行动:对照 QLoRA原论文 核验NF4量化数学原理;对照HF PEFT官方文档确认最新API
  • 标签PEFT LoRA QLoRA LLaMA-Adapter 参数高效微调 综述

条目 S03:RAG Reimagined: 5 Breakthroughs You Should Know(Gradient Flow · Ben Lorica)

  • 来源:https://gradientflow.substack.com/p/rag-reimagined-5-breakthroughs-you
  • 作者:Ben Lorica(Gradient Flow,ML/AI数据领域资深分析师)
  • 发布日期:2025-2026(持续跟踪型)
  • 可信度:⭐⭐⭐⭐⭐(专业AI分析Newsletter,高质量行业洞察)
  • 核心5项突破: 1. 推理时计算增强(Inference-time Compute):将RAG从静态Pipeline转变为动态自适应系统 2. 多模态融合(Multimodal RAG):支持文本+图像+视频+图数据联合检索 3. 向量数据库新架构(LanceDB v2):针对AI/ML workloads优化,支持多种数据类型 4. 可靠性增强:Snowflake AI Research指出即使专用模型在模糊/不足检索上下文时仍有挑战 5. 编排层智能化:自动化动态优化RAG各组件适配特定用例
  • 技术洞察:Agentic RAG + 推理模型(o1-style reasoning)是2026年RAG演进主线
  • 后续行动:对照 LanceDB 官方博客核验 v2 具体性能数据;建议纳入 RAG 2026趋势主题页
  • 标签RAG 多模态RAG 推理时计算 LanceDB Agentic RAG 2026

条目 S04:RAG Beyond Text: A Comprehensive Overview of Multimodal RAG(AIExpJourney)

  • 来源:https://aiexpjourney.substack.com/p/rag-beyond-text-a-comprehensive-overview
  • 发布日期:2025-2026
  • 可信度:⭐⭐⭐⭐(综述性质,有分类框架和技术路线图)
  • 核心内容
  • 多模态RAG Pipeline:检索→模态对齐→融合→增强→生成→评估
  • ** Taxonomy**:检索阶段优化、对齐方法(Score Fusion / Attention-based)、生成增强(CoT推理+源归属)
  • 应用领域:医疗影像、工业检测、多模态客服、具身智能
  • 评估框架:多模态检索质量 + 生成质量 + 跨模态一致性
  • 后续行动:建议对照最新多模态RAG论文(如MM-RAG Survey 2025)补充评估基准细节
  • 标签多模态RAG RAG综述 模态对齐 应用领域

条目 S05:GEAR: New Graph-RAG Technique Boost LLMs in Multi-hop Question-Answering(BDTechTalks)

  • 来源:https://bdtechtalks.substack.com/p/new-graph-rag-technique-boost-llms
  • 作者:BDTechTalks(AI/ML技术分析平台)
  • 发布日期:2025
  • 可信度:⭐⭐⭐⭐(技术解读型,引用华为诺亚方舟实验室论文)
  • 核心内容
  • GEAR(Graph-Enhanced Retrieval):华为诺亚方舟实验室提出的Graph-RAG新方法
  • 核心机制
    • 自动从检索文档中提取三元组构建图表示
    • 使用Beam Search迭代构建和丰富图结构
    • LLM在图上推理比纯文本更容易回答复杂多跳问题
  • 多跳扩展(Multi-step Extension):Agent迭代交互图检索器,逐步构建答案所需的信息图
  • 适用场景:复杂查询(如"谁在X公司工作并参与Y项目?"),需要跨多文档信息整合
  • vs Naive RAG:Naive RAG在多跳场景下召回和推理质量显著下降,GEAR通过图结构改善
  • 后续行动:对照原论文核验实验细节;建议纳入 Graph-RAG 技术跟踪
  • 标签Graph-RAG GEAR 多跳推理 华为诺亚方舟 知识图谱

条目 S06:Top LLM, RAG and Agent Updates of This Week (March Week 1, 2026)(AIXFunda)

  • 来源:https://aixfunda.substack.com/p/top-llm-rag-and-agent-updates-of-5f9
  • 发布日期:2026-03(每周跟踪型)
  • 可信度:⭐⭐⭐⭐(周更型快讯,覆盖面广但深度有限)
  • 重要更新摘要
  • Qwen3.5 Small Models:阿里通义小模型在手机上超越大模型
  • GPT-5.3 Instant:OpenAI发布,减少"cringe"和错误
  • Gemini 3.1 Flash-Lite:Google DeepMind最快Flash模型
  • Codex Desktop App for Windows:OpenAI推出Windows开发者版
  • GPT-5.4:OpenAI推出,支持原生计算机控制(Native Computer Control)
  • Allen Institute Olmo Hybrid 7B:Gated DeltaNet新架构,75%注意力计算削减
  • 标签LLM周报 Qwen GPT-5 Gemini Agent 2026
  • 后续行动:标记为行业动态,对应主题页补充

条目 S07:Multimodal RAG — Intuitively and Exhaustively Explained(IAEE)

  • 来源:https://iaee.substack.com/p/multimodal-rag-intuitively-and-exhaustively
  • 发布日期:2025-2026
  • 可信度:⭐⭐⭐⭐(图文并茂的深度解释型文章)
  • 核心内容
  • 多模态RAG允许AI模型对接文本、图像、视频等多种数据存储
  • 关键技术挑战:跨模态对齐(文本向量↔图像向量↔视频向量)
  • CLIP/VLAD等方法在多模态检索中的角色
  • 与传统文本RAG的架构差异:需要模态特定编码器 + 融合层
  • 标签多模态RAG CLIP 跨模态对齐 技术解释

三、分类标签汇总

标签 来源分布
LLM Fine-tuning CSDN(J01/J02/J04/J07)
QLoRA / LoRA / DoRA / PEFT CSDN(J01/J02)+ Substack(S02)
RAG / Agentic RAG CSDN(J05/J06)+ Substack(S03/S04/S07)
多模态RAG CSDN(J06)+ Substack(S04/S07)
Graph-RAG / KG-RAG Substack(S05)
LLM Agent / 记忆系统 CSDN(J08)+ Substack(S01)
MLOps / LLMOps CSDN(J03)
DeepSeek CSDN(J04)
2026趋势 Substack(S03/S06)+ CSDN(J05/J07)
AI辅助编程 Substack(S01)

四、本轮高价值条目(Tier-1,供精读/审稿)

优先级 条目 理由
🔴 精读 J04 DeepSeek RAG微调实战手册 完整Pipeline+量化代码,2026-05最新
🔴 精读 J07 企业微调平台深度解析(GRPO趋势) 2026新范式GRPO首次系统整理
🔴 精读 S03 RAG Reimagined(5项突破) Ben Lorica专业分析,RAG 2026主线
🟡 审稿 S02 Cameron Wolfe PEFT深度解析 PEFT方法论完整,适合纳入Fine-tuning主题页
🟡 审稿 J06 多模态RAG具身代理 工业场景具体,复现价值高
🟡 审稿 J08 LLM Agent记忆系统 综述+架构分析,论文来源明确
🟢 归档 S05 GEAR Graph-RAG 华为论文跟踪,补充Graph-RAG分支
🟢 归档 S06 AIXFunda周报 行业动态,标记趋势用

五、建议写入路径

内容 目标路径
CSDN Fine-tuning条目(J01/J02/J04/J07) Fine-tuning 主题页草稿
RAG 2026综合分析(J05/J06+S03/S04/S07) RAG 2026趋势主题页
多模态RAG专题(J06+S04/S07) Multimodal RAG 专题
Graph-RAG技术跟踪(S05) RAG技术树 Graph-RAG分支
LLM Agent记忆系统(J08) Agent架构主题页
MLOps 2025全景(J03) MLOps/LLMOps 主题页
Substack PEFT深度解析(S02) PEFT/Fine-tuning 主题页
Addy Osmani AI编程洞察(S01) AI辅助编程工程实践 主题页
行业周报(S06) LLM周报动态跟踪

六、是否需要精读/审稿/主题页更新

  • 精读:2篇(DeepSeek RAG微调手册 + GRPO趋势分析)
  • 审稿:4篇(PEFT深度解析 + 多模态RAG具身代理 + Agent记忆系统 + RAG 5项突破)
  • 主题页更新:Fine-tuning主题页(QLoRA/LoRA/DoRA体系)、RAG 2026趋势主题页、LLM Agent主题页、MLOps/LLMOps主题页
  • GitHub写入本次不执行(遵守并发规则),草稿已写入 /shared/research-kb/inbox/jay/