← 笔记
Jay 2026-06-12

知识库草稿 · Jay · 2026-06-12 晚间

本次主题

Agentic Workflow 工程实践 × Vector DB 架构选型 × HF Open Source 动态 × AI Engineer 角色定义


来源:ByteByteGo Newsletter(substack.com/@bytebytego399569) ByteByteGo 是高可信度基础设施科普 newsletter,作者为系统设计领域资深工程师

1. Dify — 全栈 Agentic Workflow 生产平台

  • 链接https://github.com/langgenius/dify
  • 可信度:⭐⭐⭐⭐⭐ | 活跃开源项目,B 站/知乎有大量中文教程
  • 核心定位:生产级 AI 应用全流程平台,覆盖"构建 → 部署 → 管理"全链路
  • 工程亮点
  • 可视化 Workflow 构建器:拖拽定义工具调用型 Agent,无需纯代码
  • 内置 RAG Pipeline 管理:文档解析 → 分块 → 向量检索 → 重排序,开箱即用
  • 多模型 Provider 支持:OpenAI、Anthropic、各开源 LLM(Ollama 本地推理)
  • 用量监控:API 调用量、Token 消耗、延迟分布的仪表盘
  • 部署灵活:本地 Docker 部署 or 云服务
  • 使用场景:需要快速上线 AI 客服/内部知识库/文档问答的团队,避免从零搭 LangChain
  • 行业定位:对标 Vercel AI SDK + LangChain 的组合,但更偏向"无代码/低代码产品团队"
  • 后续行动:建议与 langflown8n 对比评估,参考知乎"Dify vs LangChain 生产选型"讨论

2. ByteByteGo — AI Agentic Workflow Patterns

  • 链接https://blog.bytebytego.com/p/top-ai-agentic-workflow-patterns
  • 作者:ByteByteGo Team
  • 可信度:⭐⭐⭐⭐⭐
  • 核心内容:系统梳理 2026 年主流 Agentic Workflow 设计模式:
  • ReAct(Reason + Act):让 Agent 在推理过程中调用工具
  • Plan-and-Execute:先规划后执行,适合复杂多步骤任务
  • Outer Monologue / Inner Monologue:分离"对外展示的思考"和"内部推理过程"
  • Tool-informer Pattern:让工具描述更结构化,减少 Agent 对工具参数的误判
  • Parallelization:多个子任务并发执行后合并结果(类似 MapReduce)
  • 评价:工程导向,非学术论文,每个模式均附带代码示例和适用场景说明

二、Hugging Face Open Source 动态(Spring 2026 报告)

来源:https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026 官方博客,数据来自 HF 平台自身统计,可信度高

关键趋势摘要

趋势 内容
中国开源模型崛起 Qwen、DeepSeek、GLM 等中国模型占据 HF 下载量前列;企业开始针对国产芯片(昇腾/天数)做适配
Airbnb、Intel 等传统企业升级企业订阅 说明开源 AI 从"个人开发者"扩展到"企业合规部署"阶段
Kernel Hub 上线 NVIDIA/AMD GPU 优化内核的集中仓库,可类比为"AI 推理的驱动程序商店"
模型-数据集本地化现象 模型和数据集在开发所在地区被使用最多,反映 AI 的"数据主权"需求
机器人数据集激增 Robotics-data 相关数据集增速显著,HF 在拓展 LLM 之外的多模态版图
  • nvidia/LocateAnything-3B — 3B 参数量,支持高精度图像定位/检测,面向具身 AI
  • google/diffusiongemma-26B-A4B-it — Google 26B 扩散模型,多步推理优化
  • CohereLabs/North-Mini-Code-1.0 — 代码专用小模型,关注本地低资源配置场景
  • deepseek-ai/DeepSeek-V4-Pro — DeepSeek V4 Pro 版本,多模态能力增强
  • stepfun-ai/Step-3.7-Flash — 国产 StepFun(阶跃星辰)Flash 版本,低延迟推理
  • nex-agi/Nex-N2-Pro / Nex-N2-mini — 面向 Agent 场景的专用推理优化

工程评价

  • 本地推理小模型生态爆发:2026 年 Qwen-Coder、North-Mini-Code 等代码专用小模型在 GGUF 格式下,可以在 8GB RAM 的 Mac 上完成中度复杂代码任务
  • 国产模型出海:DeepSeek-V4、Step-3.7、GLM-4.7-Flash 均已上架 HF,海外开发者社区开始关注
  • Kernel Hub 值得关注:类比"PyPI for GPU kernels",未来 AI 推理加速库的生态可能围绕 HF Kernel Hub 分发

三、Vector Database 架构选型:2026 年现状

来源:多个对比评测(marktechpost / firecrawl.dev / medium@Data-Science-Collective)

⭐ Vector DB "死亡论"深度解读(值得审稿)

  • 原文https://medium.com/data-science-collective/vector-databases-are-dying-heres-the-production-evidence-8c17b54687e2
  • 作者:Data Science Collective(Medium 技术博客,署名作者)
  • 可信度:⭐⭐⭐⭐(有具体公司名和迁移案例,非空泛评论)
  • 核心论点: 1. pgvector 已满足大多数场景:百万级向量、常规元数据过滤场景下,PostgreSQL + pgvector 完全够用,月费可低至 $200(vs Pinecone $1000+) 2. "独立 Vector DB 是特性,不是生意":Elastic CEO 曾公开表态;所有主流数据库(SQL Server、MongoDB、Redis)均已内置向量搜索 3. 多系统同步噩梦:引入独立 Vector DB 后,Embedding 模型升级时需要"三系统同时重嵌入",维护成本极高 4. 规模门槛:真正的独立 Vector DB(Pinecone/Milvus/Qdrant)优势只在十亿级向量P99 延迟敏感场景

主流选型对照(2026 年)

场景 推荐方案 原因
<1000 万向量,简单过滤 pgvector(PostgreSQL 扩展) 无新系统,单 SQL 查询
千万~亿级向量 Qdrant(自托管 or 云) 性能出色,Rust 实现,延迟低
十亿+向量,企业级 Milvus + Zilliz Cloud GPU 加速,成熟生产案例
混合搜索(向量+关键词) Weaviate 原生 BM25 + 向量混合,schema 灵活
已用 Redis 团队 Redis Vector 不引入新系统,但向量能力相对弱
移动端/边缘 ObjectBox 嵌入式,NPUs 支持,面向 IoT

工程建议

  • 先测 pgvector:绝大多数中小规模 RAG 项目不需要独立 Vector DB,引入后维护复杂度翻倍
  • Embedding 模型升级是系统工程:升级前必须规划好 re-embedding pipeline 和回滚方案
  • Chunking 策略与向量数据库同等重要:同一个模型,不同 chunk size 效果可能差 20%+

四、Substack 高价值条目

1. ML Engineering vs AI Engineering — 角色边界澄清

  • 链接https://nidly.substack.com/p/dont-waste-2026-on-the-wrong-career
  • 作者:Nidly(独立技术 newsletter)
  • 可信度:⭐⭐⭐⭐
  • 核心区分(值得作为知识库定义收录):
ML Engineering AI Engineering
核心工作 训练、微调、生产化模型 将模型集成到系统,端到端可靠性
重点技能 PyTorch、分布式训练、评估框架 Prompt 策略、缓存、降级、Token 预算、LLM 供应商 API
失败模式 模型精度不达标 推理超时、输出格式错误、Token 超出限制、供应商涨价
衡量指标 Accuracy/F1/BLEU 端到端成功率、延迟、成本、可观测性
  • 对 AI Engineering 的定义

    "An AI engineer is an engineer who owns the design, evaluation, and production operation of systems built on foundation models."

  • 后续行动:可作为知识库"AI Engineering 定义页"的基础引用

2. How to Learn Agentic AI in 2026 — 生产踩坑路线图

  • 链接https://rockybhatia.substack.com/p/how-to-learn-agentic-ai-in-2026
  • 作者:Rocky Bhatia(AI 工程教育者)
  • 可信度:⭐⭐⭐⭐(有具体生产事故案例,非空谈)
  • 核心案例:作者部署 Agent 系统后遇到递归重试循环:系统触发递归 retry,一夜之间烧掉数千美元推理费用,同时静默损坏共享内存状态
  • 关键教训: 1. Agent 失控风险被严重低估:Agent 一旦获得"执行"权限而非"建议"权限,工程问题性质完全不同 2. 学习顺序建议:Agent 概念 → 工具调用 → 记忆/状态管理 → 可观测性 → 安全护栏 3. Agent 的核心基础设施:不是 LLM,是执行引擎(类似 LangChain AgentExecutor、OpenAI Assistant API)
  • 建议写入:知识库"Agent 工程实践"章节,作为"生产注意事项"高亮条目

五、arXiv 高价值工程论文

1. AI Engineering Blueprint for On-Premises RAG Systems(⭐ 精读推荐)

  • 链接https://arxiv.org/html/2604.01395v1
  • 可信度:⭐⭐⭐⭐⭐(arXiv 2026,有 GitHub 代码,有 4+1 视图架构图)
  • 主题:企业本地化 RAG 部署完整蓝图
  • 核心贡献
  • 端到端参考架构:4+1 视图模型(逻辑/进程/开发/物理视图 + 场景视图)
  • 参考应用:完整可部署的本地 RAG 实现,GitHub 开源
  • 最佳实践:工具链选型(LangChain/LlamaIndex)、CI/CD 流水线设计
  • 解决的问题
  • 医疗、金融等强监管行业无法上云的数据合规需求
  • AI + IT 基础设施整合复杂性
  • 数据安全与合规
  • 建议行动:对照知识库现有 RAG 部署文档,补充此 Blueprint 作为"企业级 RAG 部署"参考架构
  • TradingAgentshttps://huggingface.co/papers/trending — 多 Agent LLM 金融交易框架,模拟真实交易公司架构,CAGR + Sharpe ratio 为评估指标
  • ALE(Agents' Last Exam):1K+ 任务横跨 13 个行业集群,揭示 Benchmark 性能与实际部署的巨大差距
  • MinerU 2.5:1.2B 参数文档解析 VLM,粗粒度到细粒度解析策略,SOTA OmniDocBench v1.6
  • Cosmos 3:全模态世界模型(Omnimodal World Model),统一 MoT 架构,支持理解和生成

分类标签

agentic-workflow vector-database rag backend deployment hugging-face open-source llm-engineering career arxiv substack dify


建议写入路径

草稿 目标位置 说明
2026-06-12-evening-agentic-vector-hf-substack.md review/published/ai-engineering/ 主草稿,含多个条目
Vector DB 选型部分 published/vector-database/published/rag/ 专题页 独立专题更新
ML vs AI Engineering 定义 published/ai-engineering/role-definition.md 新建角色定义页
On-Premises RAG Blueprint published/rag/deployment/ 补充企业 RAG 部署章节

是否需要精读/审稿/专题页更新

  • 精读AI Engineering Blueprint for On-Premises RAG(arXiv 2604.01395)——适合加入"企业级 RAG 部署"专题
  • 审稿:Vector DB "Death" 反驳文章——观点鲜明,有具体案例,建议加入"Vector DB 选型"章节作为辩证参考
  • 专题页更新AI Engineering 定义(新建)、Agent 工程实践-生产注意事项(更新)
  • 无需新建:Dify / ByteByteGo Workflow Patterns — 已有框架类目,归入现有分类即可