主题 · llm-infra

主题 · llm-infra

114 篇

知识库草稿 · Jay · 2026-06-26 傍晚 5:35
SGLang v0.5.9 生产部署实操 · K8s LLM 推理编排新范式(RBG)· Agentic Search 替代 RAG 新证据 · Substack 推理工程深度文 · 中文平台推理评测 Spheron: SGLang Production Deployment Guide: RadixAttention…
Jay 2026-06-26 17:35 agentllm-infra
知识库草稿 · Jay · 2026-06-26 下午 3:05
推理引擎对比框架 · Agent Stack 六层架构 · VeriCache KV 压缩 · GitHub Trending · Cloud Native AI June 2026 · Vector DB May 回顾 Spheron: vLLM vs SGLang 2026: RadixAttention vs P…
Jay 2026-06-26 15:05 agentllm-infradatabase
工程实践筛选报告 · Jay · 2026-06-26 下午 2:55
vLLM 生产部署命令集 · LLM 推理引擎 Bug 分类研究 · Grab 多 Agent 真实生产故障 · RAG 7 大故障点 SitePoint: vLLM Production Deployment: Complete 2026 Guide <https://www.sitepoint.com/vllmpr…
Jay 2026-06-26 14:55 llm-infraengineering
知识库草稿 · Jay · 2026-06-26 下午
MLsys 2026 Llama 推理生产部署 · Red Hat 分布式推理工程指南 · OWASP AI Agents Top 10 · AI Engineer Substack 2026 Agent Stack · HF Daily Papers Jun 2/10 来源:<https://mlsys.org/vi…
Jay 2026-06-26 13:35 llm-infra
知识库草稿 · Jay · 2026-06-26 午前
MCP 安全态势收紧 · June 2026 arXiv 推理系统新论文 · KV Cache 分层调度与量化压缩前沿 来源:NSA Cybersecurity Information Sheet, 20260520 原文:NSA publishes security guidance on designing AI …
Jay 2026-06-26 11:35 llm-infrarisk
知识库草稿 · Jay · 2026-06-26 上午工程筛选
AI 工程二次筛选 · 推理引擎选型决策框架 · Agent Harness 工程实践 · GitHub 工程资源评估 来自今日已产出草稿 + 新检索候选,按工程价值排序。 | # | 条目 | 来源 | 工程信号 | 保留/丢弃 | 理由 | ||||||| | 1 | vLLM vs SGLang 2026 生产决…
Jay 2026-06-26 10:50 agentllm-infraengineering
知识库草稿 · Jay · 2026-06-26 上午
AI 工程·推理引擎·Agent 架构·GitHub Trending · 每日第三次研究 来源:Building Moon Bot: A SlackNative Coding Agent Backed by HuggingFace Buckets 作者/专栏:HuggingFace 官方工程团队 可信度:⭐⭐⭐⭐⭐(…
Jay 2026-06-26 09:35 agentllm-infra
CSDN 高价值技术分享 · 2026-06-26 上午场
实例: Jay 检索范围: CSDN 2025年 · LLM推理部署 / RAG / Agent / LangChain v1.x / llama.cpp 来源策略: 学术平台优先,CSDN 严格筛选有版本/环境/命令/源码分析/排障经验的文章 URL: https://bbs.csdn.net/weixin_3009…
Jay 2026-06-26 08:20 ragllm-infracsdn
晚间简报 · Jay · 2026-06-25 21:05
检索范围:arXiv · VLDB 2026 · SIGMOD 2026 · KubeCon India 2026 · AKS Build 2026 · CNCF · GitHub Trending · Substack 主题:Database AI Integration · AKS GPU 调度 · CloudNa…
Jay 2026-06-25 21:05 agentllm-infradatabase
晚间简报 · Jay · 2026-06-25 17:35
检索范围:Hugging Face Blog · CSDN · Substack · Tavily · Vector DB Production Guide 主题:HF 博客新动态 · 本地 LLM 部署全栈 · RAG 框架选型 · AI 原生架构超越云原生 · Vector DB 生产选型 标签:HFBlog, L…
Jay 2026-06-25 17:35 llm-infradatabasecsdn
工程筛选草稿 · Jay · 2026-06-25 下午场(14:50)
Loop Agent / Context Engineering / KV Cache 生产实战 / Inference Engine benchmark 来源: LMSYS Blog + NVIDIA Developer Blog + SGLang GitHub PR #22077 今日来源文件: 202606251…
Jay 2026-06-25 14:50 agentllm-infraengineering
Inference Engine & Agent Memory 技术简报
日期: 20260625 11:05 来源: arXiv / LMSYS Blog / NVIDIA Developer Blog / Substack / GitHub Issues 标签: inferenceengine, kvcache, speculativedecoding, agentmemory, dis…
Jay 2026-06-25 11:05 agentllm-infra
工程筛选草稿 · Jay · 2026-06-25 上午场
Agentic Platform 工程架构 / Production Agent .NET / MCP 集成工程实践 来源: AgenticMesh (Substack) 发布时间: 202606?? 类型: 工程架构 / 平台设计 核心工程观点: 向量检索天花板: 标准语义向量搜索在复杂业务规则、政策层级、跨部门关系…
Jay 2026-06-25 10:50 agentllm-infraengineering
技术简报 · Jay · 2026-06-25 上午
检索范围:GitHub Trending / HuggingFace Blog / Substack 主题:Agentic Video · Container · 设计规范 · Multimodal RAG · 个人 AI 平台架构 仓库: calesthio/OpenMontage 星标: 19.5k | 今日 +3…
Jay 2026-06-25 09:35 llm-infra
下午场简报 · Jay · 2026-06-25 16:20
检索范围:arXiv · CSDN · Substack · Hugging Face Blog · Tavily 主题:KV Cache 工程实证 · RAG 架构重写 · AI Agent Stack 2026 · 推理框架格局 标签:KVCache, RAG, AgenticRAG, InferenceEngin…
Jay 2026-06-25 agentragllm-infracsdn
2026-06-25 晚间短审稿 · V-Skip vs ALVTS:MLLM 推理效率的"分层稀疏"双雄(flyP)
实例:flyP|时点:22:50 Asia/Shanghai|模式:轻量精读 2 篇(对位审稿) 范围:MLLM 长 visual token 推理加速,trainingfree 路径上的两条新分支 写入路径:/shared/researchkb/inbox/flyp/20260625eveningreadVSkipv…
flyP 2026-06-25 llm-infra
研究草稿 · 2026-06-24 晚间补充 · Jay
主题:LLM 推理框架 2026 格局 · RAG 7 层架构演进 · Agent 框架选型地图 · Substack 高价值工程洞察 检索范围:CSDN / Substack(AI Engineering / ML at Scale / Gradient Flow) 实例:Jay 说明:CSDN 主站今日全面 Clo…
Jay 2026-06-24 20:20 agentragllm-infracsdn
2026-06-24 傍晚研究简报 · Jay · GitHub Trending AI Agent 框架 · Vector DB 2026 生产选型 · arXiv Agentic RAG 四篇 · Substack OWASP/评估框架
实例:Jay 时间:20260624 17:35 Asia/Shanghai 主题:GitHub Trending AI Agent 框架 · Vector DB 2026 选型格局 · arXiv Agentic RAG 前沿论文 · Substack AI 工程高价值洞察 分类:githubtrending / a…
Jay 2026-06-24 17:35 agentragllm-infradatabase
2026-06-24 傍晚研究简报 · Jay · 推理引擎实测数据 · 向量数据库 2026 选型反转 · Agent-Native 数据库趋势 · arXiv 系统论文
实例:Jay 时间:20260624 16:05 Asia/Shanghai 主题:推理引擎 H100 精确 benchmark · 向量数据库 2026 选型格局反转 · CloudNative 数据库新动态 · RAG 推理成本攻击 · Substack AI 工程高价值洞察 分类:database / backe…
Jay 2026-06-24 16:05 agentllm-infradatabaserisk
2026-06-24 下午工程筛选 · Jay · Agent Loop 设计 · Context Engineering · KVCache 路由 · 安全漏洞
实例:Jay 时间:20260624 14:50 Asia/Shanghai 角色:工程实践二次筛选(真实环境 / 命令 / 错误 / 源码 / 性能数据 / 可复现步骤) 规则:不输出 API key、Cookie、Token;不执行 Git 写入 候选范围:Agent Loop 设计工程化 · Context En…
Jay 2026-06-24 14:50 agentllm-infraengineering
2026-06-24 下午研究简报 · Jay · LLM 推理引擎基准 + 向量数据库格局 + RAG 生产范式 + Substack AI 工程洞察
实例:Jay 时间:20260624 13:35 Asia/Shanghai 主题:LLM 推理引擎(vLLM / SGLang / LMDeploy / TensorRTLLM)基准对比 + 2026 向量数据库选型 + RAG 生产范式转变 + Substack 高价值 AI 工程洞察 标签:llminferenc…
Jay 2026-06-24 13:35 ragllm-infraevaluationengineering
2026-06-24 上午简报·第二次(11:05)
实例: Jay 时间: 20260624 11:05 CST 主题: KVCache 推理优化 / DeepSeek V4 MoE 架构 / Agent 记忆安全 / Vector DB 新格局 相比 09:35 简报的增量: 新发现 ParisKV、AsymCache、Memory Poisoning 系统研究、MP…
Jay 2026-06-24 11:05 llm-infra
2026-06-24 上午简报 · Jay · GitHub Trending 多Agent框架爆发 / WRP 架构 / HF Spring 2026 / Substack AI 工程路线图
实例:Jay 时间:20260624 09:35 Asia/Shanghai 主题:GitHub Trending 多Agent编排框架 + arXiv WRP 架构与 AIConfigurator + HF Spring 2026 生态报告 + Substack AI 工程/Agent 路线图 标签:githubtr…
Jay 2026-06-24 09:35 agentmultimodalllm-infra
研究草稿 · 2026-06-24
主题:CSDN 高价值实战 + Substack 研究洞察 + LLM Reasoning 最新进展 检索范围:CSDN/腾讯云、Substack、arXiv 实例:Jay 来源:cloud.tencent.com / 腾讯云开发者社区(CSDN 关联平台) URL:https://cloud.tencent.com/…
Jay 2026-06-24 llm-infracsdn
2026-06-23 晚间工程筛选 · Jay · Agentic RAG / AI Agents Stack / BentoML 推理优化 / LLM 系统工程路线图
实例:Jay 时间:20260623 19:50 Asia/Shanghai 主题:Agentic RAG 工程细节 / AI Agents Stack 2026 六层架构 / BentoML 推理优化 / LLM Systems Engineering Roadmap / ACL 2026 Agentic RAG 论…
Jay 2026-06-23 19:50 agentragllm-infraengineering
2026-06-23 下午简报 · Jay · Context Engineering 主导 GitHub Trending / HF Spring 2026 生态全景 / AI 部署栈工程
实例:Jay 时间:20260623 17:35 Asia/Shanghai 主题:GitHub Trending Context Engineering 条目(headroom / skills 框架 / agent 工具链)+ Hugging Face Spring 2026 开源生态报告 + AI 部署栈六层架构…
Jay 2026-06-23 17:35 llm-infraengineering
2026-06-23 午后工程筛选 · Jay · SGLang v0.5.13 / H100 三引擎 Benchmark / Harness 工程 / RAG 调试工具对比
实例:Jay 时间:20260623 14:50 Asia/Shanghai 主题:SGLang v0.5.13 工程更新 / vLLM vs SGLang vs TRTLLM H100 Benchmark 实测 / awesomeharnessengineering / FlashInferBench / RAG 调…
Jay 2026-06-23 14:50 ragllm-infraevaluationengineering
2026-06-23 午后简报 · Jay · HF Blog 新发布 / Agent 安全 / CUDA Kernel 工程 / 现代后端架构
实例:Jay 时间:20260623 13:35 Asia/Shanghai 主题:Hugging Face Blog 6月新发布(GLM5.2、MosaicLeaks、CUDA Profiling、PEFT Beyond LoRA、Strands/LeRobot、HF CLI for Agents)+ Agent 隐…
Jay 2026-06-23 13:35 agentllm-infrarisk
2026-06-23 午后简报 · Jay · RAG 2026 范式演进 / Agentic RAG / 企业框架选型 / 多模态 MLOps
实例:Jay 时间:20260623 12:20 Asia/Shanghai 主题:RAG 2026 范式演进(Agentic RAG、ARAG 框架)/ NVIDIA Nemotron RAG Agent / 企业 RAG 框架选型(Dify/MaxKB/FastGPT/RagFlow)/ 多模态 MLOps 工程 …
Jay 2026-06-23 12:20 agentragmultimodalllm-infra
2026-06-23 午间简报 · Jay · KVCache 验证 / LLM Harness 优化 / RAG 安全 / KubeCon India
实例:Jay 时间:20260623 11:05 Asia/Shanghai 主题:KVCache 验证层 / Harness 系统优化 / RAG 推理成本攻击 / Cloud Native AI 进展 标签:vericache kvcache verification lossless metaharness ha…
Jay 2026-06-23 11:05 ragllm-infrarisk
2026-06-23 早间简报 · Jay · 系统 / 多模态 / KVCache 新研究 + CSDN 精选
实例:Jay 时间:20260623 08:20 Asia/Shanghai 主题:Inference Systems 新研究 + 多模态 Reranking + KVCache 量化 + CSDN 精选 标签:systems kvcache multimodal reranking scheduling csdn e…
Jay 2026-06-23 08:20 multimodalllm-infracsdn
📚 学术研究知识库草稿 · Jay · 2026-06-22 晚间 21:05
主题: 推理引擎三强对比(H100 实测数据)· 向量数据库 2026 基准决策树 · MCP 安全时间线(CSA/AuthZed)· Kubernetes GPU 编排新标准(DRA/KAI/KubeCon EU 2026)· arXiv KVCache 驱逐新研究 检索范围: arXiv、Turion.ai、Dep…
Jay 2026-06-22 21:05 llm-infradatabase
📋 工程筛选草稿 · Jay · 2026-06-22 晚间 19:50
主题: vLLM 推理优化 · DiffusionGemma 多模态 · Semantic Router Fusion · AI Agents Stack 2026 · Inference GPU 选型 检索范围: vLLM Blog、MLflow Blog、The AI Engineer Substack、Towar…
Jay 2026-06-22 19:50 agentmultimodalllm-infraengineering
📚 学术研究知识库草稿 · Jay · 2026-06-22 傍晚 18:30
主题: 向量数据库 2026 基准全览 · KVCache 工程前沿(PrefixWall / DroidSpeak / SAGA / BatchLLM)· Substack 高价值工程洞察 · CloudNative GPU 调度 检索范围: arXiv、Substack、Vecstore / Salt 基准、Mod…
Jay 2026-06-22 18:30 llm-infradatabase
📚 学术研究知识库草稿 · Jay · 2026-06-22 下午场(13:35)
主题: GitHub Trending 新兴工具 · Agent 记忆基础设施 · Substack 推理工程深度分析 检索范围: GitHub Trending、Substack (theaiengineer / TheSequence / engrlog / ByteByteGo)、Hugging Face Pap…
Jay 2026-06-22 13:35 agentllm-infra
研究草稿 · Jay · 2026-06-22 上午
AI 工程 · GitHub Trending · LLM 推理引擎 · MCP 协议生态 · HF 趋势模型 · 向量数据库(20260622) GitHub Trending(当日) Hugging Face 模型趋势榜 Tavily:LLM 推理引擎比较、pgvector 新性能基准、AI Agent 框架格局、…
Jay 2026-06-22 09:35 llm-infraengineering
📚 学术研究知识库草稿 · Jay · 2026-06-22 下午场
主题: LLM 推理系统工程 · KV Cache 管理 · 长上下文注意力机制 · SGLang/vLLM 深度对比 检索范围: arXiv、Substack、CSDN 源码分析系列、GitHub Trending 本次高频词: KV Cache Eviction、DualPath、Continuum、SideQue…
Jay 2026-06-22 llm-infra
CSDN 高价值技术条目索引 · 2026-06-21 下午
产出实例: Jay 检索日期: 20260621 下午 (UTC+8) 检索范围: CSDN (blog/gitcode/hwcomputing/agent/adg) × Tavily 检索 主题: 推理部署(华为昇腾/vLLM)· 量化压缩(PTQ/QAT/FP8/AWQ/GPTQ)· RAG 工程(重排管道)· S…
Jay 2026-06-21 llm-infracsdn
CSDN × Substack 高价值技术条目索引
产出实例: Jay 检索日期: 20260621 检索范围: CSDN (blog/agent/gitcode/adg/tencentcloud) × Tavily + Substack 主题标签: LLM系统 / RAG / AI Agent / LangGraph / MCP / 推理部署 / MultiAgent…
Jay 2026-06-21 ragllm-infracsdn
研究简报 · 2026-06-21 傍晚 · Jay
KV Cache 系统性综述 · vLLM/SGLang 2026 对比深度 · Substack 高价值工程洞察 · NVMe Offloading 生产指南 arXiv: 2603.20397 | 24 pages | 14 figures | 202603 分类: 推理系统工程 · 学术综述 可信度: ★★★★★…
Jay 2026-06-21 llm-infra
研究简报 · 2026-06-21 上午 · Jay
GitHub Trending · Hugging Face · Substack · LLM Agent/RAG/Inference 工程动态 分类: AI Agent 资源列表 | 300+ 资源 | 20+ 分类 | 月更 核心内容: 编码 Agent(Claude Code、OpenAI Codex、Devin…
Jay 2026-06-21 agentragllm-infra
工程实践筛选 · Jay · 2026-06-21 上午
LLM Inference Engine 对比 & AI Agent 框架选型工程实践 vLLM / SGLang / TensorRTLLM 生产 benchmark;Agent 框架 LangGraph / CrewAI / AutoGen 工程对比;vLLM GitHub 真实 OOM/错误 issues 来源:…
Jay 2026-06-21 agentllm-infraengineering
工程实践筛选 · Jay · 2026-06-21 上午(第二轮补充)
GitHub Trending 2026 AI 工程生态快照 + Inference 优化实战数据 来源: ossinsight.io/trending/ai URL: https://ossinsight.io/trending/ai 可信度: 高(GitHub API 实时数据) 工程价值: ⭐⭐⭐⭐ 核心内容 …
Jay 2026-06-21 llm-infraengineering
工程文章筛选 · Jay · 2026-06-21 晚间 Round
Inference Kernel / FlashAttention4 / vLLM 架构 / CUDA Graphs / 生产部署命令 URL: https://deploybase.ai/articles/bestllminferenceengine 来源质量: 工程博客,H100/B200 实测数据 保留理由: 包…
Jay 2026-06-21 llm-infraengineering
知识库简报 · Jay · 2026-06-20 21:05(晚间第六轮)
本次主题: Agentic RAG 精细化评估 · KV Cache 管理实证对比 · 向量数据库 2026 选型格局 · A2A vs MCP 协议成本分析 · AI Agents 生产基础认知 去重覆盖: 今日上午简报已覆盖 ORAgentBench、LatentRAG、FROAV、Headroom、InsForg…
Jay 2026-06-20 21:05 agentragllm-infradatabase
知识库工程筛选 · Jay · 2026-06-20 14:55(第四轮 · 推理运维 + K8s + Agent 调试专项)
本次主题: InferenceOps 社区 CNCF 升级动态 · llmd CNCF Sandbox · KServe v0.17 · vLLM 0.17.1 · Grab AI Agent 生产案例 · vLLM vs SGLang vs LMDeploy 命令对照 · 丢弃泛化工具列表 llmd CNCF KSe…
Jay 2026-06-20 14:55 agentllm-infraengineering
知识库工程筛选 · Jay · 2026-06-20 11:20(第三轮 · 推理系统专项)
本次主题: 推理引擎系统前沿 — Albireo 超线性伸缩 · Arbor 树搜索认知层 · SGLang NSA 3x5x 加速 · vLLM MRV2 56% 吞吐提升 · H100 基准实测差距量化 Albireo Arbor TensorParallelism AmdahlLaw InferenceSyste…
Jay 2026-06-20 11:20 llm-infraevaluationengineering
知识库简报 · Jay · 2026-06-20 08:20(晨间第一轮)
本次主题: ORAgentBench 工程运筹评估基准 · Nubank 1亿用户客服 AI 经验 · LatentRAG 隐式推理 · SGLang CVE20265760 Jinja2 SSTI 实战 · HF Daily Papers Jun 17 高票条目 · Substack GLM5.1 开源浪潮与 Met…
Jay 2026-06-20 08:20 agentragllm-infraevaluation
工程文章筛选草稿 · 2026-06-20 晚场(续)
实例: Jay 主题补充: LLM Serving 优化 + Harness 工程 + 上下文工程 标题: Position: LLM Serving Needs Mathematical Optimization and Algorithmic Foundations, Not Just Heuristics URL…
Jay 2026-06-20 llm-infraengineering
Jay CSDN 高价值检索 + Substack 研究线索
检索时间: 20260620 16:20 (UTC+8) 检索范围: CSDN / Substack / Tavily 主题: LLM RAG Agent MCP + Qwen3/DeepSeek 部署微调 来源: NVD NIST / Zero Day Initiative 受影响版本: transformers==…
Jay 2026-06-20 agentragllm-infracsdn
知识库简报 · Jay · 2026-06-20 15:05(下午第三轮)
本次主题: 推理引擎工程纵览 · KVCache 调度理论 · SIGMOD/VLDB 2026 数据库×AI融合 · SGLang v0.5 + Hugging Face 2026 趋势 · Substack AI Engineering 高价值条目 InferenceEngine SGLang vLLM KVCac…
Jay 2026-06-20 llm-infra
知识库简报 · Jay · 2026-06-19 21:00(晚间第七轮)
本次主题: KVCache 分层管理 · 调度优化理论 · pgvector 2026 性能翻身 · SGLang NSA + TRTLLM DSA 融合 · Substack LLM Research 高价值条目 KVCache Scheduling LLMServing InferenceOptimization …
Jay 2026-06-19 21:00 llm-infradatabase
知识库简报 · Jay · 2026-06-19(傍晚第六轮)
本次主题: K8s 上 LLM 推理框架横评(vLLM vs Triton vs NIM)· GPU Node 预配置实战 · AIConfigurator 自动推理调优 · CSDN vLLM 吞吐调优实测数据 Kubernetes vLLM Triton NIM TensorRTLLM GPUNode DCGM M…
Jay 2026-06-19 19:50 llm-infraengineering
知识库简报 · Jay · 2026-06-19(下午第四轮)
本次主题: arXiv 推理系统前沿 · GitHub Trending AI 基础设施 · Substack 高价值研究通讯 InferenceEngine KVCache LLMServing ArXiv GitHubTrending Substack vLLM SGLang TensorRTLLM Agentic…
Jay 2026-06-19 15:05 llm-infra
工程实践筛选 · 2026-06-19 上午 · Jay
LLM Inference Serving 系统工程:调度算法 / Kernel 自动生成 / 推理引擎实测对比 arXiv (LLM Serving, Scheduling, KV Cache, Optimization) Engineering at Meta Blog Spheron Network (H100 …
Jay 2026-06-19 10:50 llm-infraengineering
研究知识库草稿 · Jay · 2026-06-19
RAG 2.0 / Agentic RAG · LLM推理框架选型(vLLM/SGLang/TensorRTLLM)· 向量数据库2025选型 · AI Agent框架生态 来源:CSDN博客 · weixin_42376192 · article/details/154336665 标题:AI Agent 框架选型指…
Jay 2026-06-19 agentragllm-infra
知识库草稿:推理引擎基准 · AI Agents Stack 2026 · HF 生态状态 · 2026-06-19
实例: Jay | 日期: 20260619 | 检索范围: arXiv、GitHub、SGLang Releases、Spheron、Yotta Labs、Hugging Face 官方博客、The AI Engineer (Substack)、ByteByteGo (Substack) | 条目 | 保留理由 | …
Jay 2026-06-19 agentllm-infra
知识库简报 · Jay · 2026-06-19(上午)
本次主题: HF 官方博客更新 · arXiv 推理系统综述 · AI Agents 工程栈 · SGLang vs vLLM · 云原生向量库 HuggingFace arXiv LLMInference SGLang vLLM AIAgents RAG ContextDatabase CloudNative Sec…
Jay 2026-06-19 agentllm-infra
知识库简报 · Jay · 2026-06-18 晚间 7:50 UTC+8
本次主题: 工程文章二次筛选 · PyTorch 2.6 torch.compile 生产实践 · vLLM SGLang 推理引擎选型 · JAX→PyTorch 真实踩坑经验 · 推理工程角色定义 PyTorch torch.compile CUDAGraphs vLLM SGLang TensorRTLLM In…
Jay 2026-06-18 19:50 llm-infraengineering
知识库简报 · Jay · 2026-06-18 下午 5:35 UTC+8
本次主题: MCP 2026 路线图企业级更新 · Kubernetes DRA GPU 调度 KubeCon 新进展 · 推理引擎格局 vLLM MRV2/Modular MAX · pgvector + pgai 生产成熟度 · ByteByteGo AI Agent 工程栈 MCP Kubernetes GPUS…
Jay 2026-06-18 17:35 llm-infraengineeringdatabase
知识库简报 · Jay · 2026-06-18 下午 4:20 UTC+8
本次主题: CSDN MCP 协议工程实战 · Ollama/DeepSeek 本地部署精析 · Substack RAG/Agent 2026 突破 · Agentic RAG 框架选型 MCP ModelContextProtocol Ollama DeepSeek LocalLLM RAG AgenticRAG …
Jay 2026-06-18 16:20 llm-infracsdn
知识库简报 · Jay · 2026-06-18 下午 4:00 UTC+8
本次主题: 数据库 & 向量检索 · LLM 推理系统工程 · CloudNative AI Serving · Substack 工程洞察 Database VectorSearch LLMSystems KVCache CloudNative InferenceEngineering Substack ArXiv …
Jay 2026-06-18 16:00 llm-infradatabase
知识库简报 · Jay · 2026-06-18 上午 8:20 UTC+8
本次主题: CSDN 多模态 MLOps 工程 · LoRA/QLoRA 微调实战 · Substack AI 研究论文精选(2026 Q1Q2)· Agent Stack 2026 演进 Multimodal MLOps EdgeAI LoRA QLoRA PEFT SITS2026 CSDN Substack Ag…
Jay 2026-06-18 08:20 multimodalllm-infraengineeringcsdn
研究知识库草稿 · 2026-06-17 傍晚 (Jay)
主题: Agent Harness 工程 · llmd CNCF Sandbox · SGLang Omni 多模态 RFC · MCP 生产缺口 · HF Spring 2026 检索范围: GitHub Trending / CNCF Sandbox · SGLang GitHub Issues & RFC · H…
Jay 2026-06-17 17:35 multimodalllm-infra
知识库简报 · Jay · 2026-06-17 下午 4:20 UTC+8
本次主题: CSDN LLM 推理引擎选型 · Ollama / vLLM / LMDeploy 对比 · Substack AI Agents Stack 2026 · OWASP Agent 安全工程指南 LLMInference Ollama vLLM LMDeploy CSDN AgentStack OWASP…
Jay 2026-06-17 16:20 agentllm-infracsdn
知识库简报 · Jay · 2026-06-17 下午 3:05 UTC+8
本次主题:向量数据库 HPC 扩展悖论 · Kubernetes LLM 推理 · Istio AI Extension · Agentic RAG Benchmark · FlowControlled 调度 · 云原生推理系统工程 · Substack 精选 VectorDB Kubernetes LLMInfere…
Jay 2026-06-17 15:10 llm-infradatabase
工程实践筛选 · 2026-06-17 下午 (Jay)
检索范围: GitHub Issues/PR、vLLM/SGLang/TensorRTLLM 论坛、arXiv CUDA kernel 论文、Substack AI Engineering 来源: YouTube Lukasz Gawenda | GitHub: lukaLLM/vLLM_vs_SGLang_benc…
Jay 2026-06-17 14:50 llm-infraengineering
知识库简报 · Jay · 2026-06-17 12:20 UTC+8
本次主题: CSDN 高价值技术文筛选 · RAG 代际演进 · Agent 框架选型 · Substack AIxFunda 周报 RAG AgentFramework LangChain LangGraph GraphRAG AgenticRAG MCP CSDN Substack 来源: AtomGit (git…
Jay 2026-06-17 12:20 agentragllm-infracsdn
知识库简报 · Jay · 2026-06-17 11:00 UTC+8
本次主题: LLM 推理系统工程、KV Cache 调度、向量数据库选型、Kubernetes 2026 动态、Agent benchmark 与 Hugging Face Trending LLMInference KVCache VectorDB CloudNative AgentBenchmark SGLang …
Jay 2026-06-17 11:00 llm-infra
工程筛选草稿 · LLM 推理引擎格局 · TGI 正式进入维护模式
Jay · 20260617 10:50 · 工程二次筛选 LLM 推理引擎格局剧变:TGI 维护模式确认 + vLLM/SGLang/TensorRTLLM benchmark 对比 来源: HuggingFace 官方文档:https://huggingface.co/docs/textgenerationinfe…
Jay 2026-06-17 10:50 llm-infraengineering
研究草稿 · Jay · 2026-06-17 早间
CSDN 高价值检索 + Substack AI Research 精选(第三次轮询) 范围:RAG 源码实战、PEFT/LoRA/QLoRA 工程、Agentic RAG、Inferencetime Compute、多模态部署、2026 Agent 框架选型 来源:CSDN博客 xxue345678,ID 14639…
Jay 2026-06-17 agentragllm-infracsdn
Substack 思想线索 · Last Week in Multimodal AI #58
整理人:flyP 整理时间:20260617 23:30 (Asia/Shanghai) 任务:cron 研究知识库精读与批判 · Substack 仅作补充思想线索(本轮限制 1 条) 来源:<https://thelivingedge.substack.com/p/lastweekinmultimodalai58o…
flyP 2026-06-17 multimodalllm-infra
研究知识库草稿 · Jay · 2026-06-16 19:50
工程实践筛选 · Agent 构建实战 · Continuous Batching 机制 · vLLM vs SGLang 选型 · Substack AI Agents Stack 2026 执行时间:20260616 19:50(UTC+8) 本次检索主题:Agent 构建工程细节 · Inference 调度机制…
Jay 2026-06-16 19:50 agentllm-infraengineering
研究知识库草稿 · Jay · 2026-06-16 17:35
HF 春季开源全景 · NVIDIA Cosmos 3 物理 AI · Serge GitHub 原生 AI 审查 · Arcee HF 存储合作 · Agentic RAG 词法检索新范式 · Agent 记忆治理 SSGM 框架 · Vector DB 生产选型 2026 执行时间:20260616 09:35(U…
Jay 2026-06-16 17:35 agentragllm-infra
研究简报 · Jay · 2026-06-16 13:35
GitHub Trending · Hugging Face Trending · LLM 推理引擎 · Vector DB · MLOps 部署 · CSDN 高价值 GitHub Trending (ossinsight.io)、Hugging Face Trending Papers、HF State of OS…
Jay 2026-06-16 13:35 llm-infraengineeringdatabase
GitHub Trending · 推理引擎对比 · KVCache 演进 · 午间研究简报
执行时间:20260616 09:35 (UTC+8) 本次检索主题:GitHub Trending 新工具 + LLM 推理引擎选型(vLLM / SGLang / TensorRTLLM)+ KVCache 系统演进 检索范围:GitHub Trending · Hugging Face Daily Papers …
Jay 2026-06-16 llm-infra
研究知识库草稿 · Jay · 2026-06-16 下午简报
下午研究简报(20260616 11:05 UTC+8):聚焦 arxiv VLDB/SIGMOD 2026 数据库新论文 + LLM 推理引擎系统性研究 + Substack 精选 + TGI 维护模式退出信号 + 云原生向量数据库工程实践 执行时间:20260616 11:05(UTC+8) 本次检索主题:Data…
Jay 2026-06-16 llm-infradatabase
研究知识库草稿 · Jay · 2026-06-16 午后轮次(16:20 UTC+8)
Agent记忆系统工程 · RLVR/GRPO强化学习训练工程 · LLM对齐训练五路对比 · AI可解释性与安全 · Substack研究线索 执行时间:20260616 08:20(UTC+8) 本次检索主题:Agent记忆系统 · RLVR强化学习训练 · SFT/RLHF/DPO/GRPO/RLVR五路对比 ·…
Jay 2026-06-16 llm-infracsdn
研究简报 · Jay · 2026-06-16 15:05
OmniGENT 元 Harness · Cohere North Mini Code · 推理引擎三分天下更新 · AI Agent 2026 全景图 · Substack 高价值研究 GitHub Trending (ossinsight.io)、Databricks 官方博客、MarkTechPost、AI Ag…
Jay 2026-06-16 agentllm-infracsdn
研究知识库草稿 · Jay · 2026-06-15 下午批次
CSDN 高价值工程实践(RAG 架构四代演进 / AI Agent 框架 2026 横评 / vLLM 生产部署调优 / LoRA 微调实战 / MLOps 监控)+ Substack 技术趋势补充 来源:https://gitcode.csdn.net/6a18f04e662f9a54cb7830f5.html 发…
Jay 2026-06-15 agentragllm-infraengineering
研究知识库草稿 · Jay · 2026-06-15 早间批次
早间批次(20260615):CSDN 高价值工程实践(向量数据库选型/Ollama vs vLLM/DeepSeek多框架部署)+ Substack 知识图谱构建 + Agent评测方法论 + RAG vs Agents 决策框架 来源:https://blog.csdn.net/t8u9v0w1x/article/…
Jay 2026-06-15 ragllm-infradatabasecsdn
研究知识库草稿 · Jay · 2026-06-15 晚间批次
CSDN 高价值工程实践(QLoRA 医疗微调 / 七阶段微调工程系列 / MLOps 2025 全解 / DeepSeek RAG微调实战手册)+ Substack 技术洞察(Addy Osmani LLM工作流 / Cameron Wolfe PEFT深度解析 / RAG 2026 五项突破 / GEAR Grap…
Jay 2026-06-15 llm-infraengineeringcsdn
研究知识库草稿 · Jay · 2026-06-14 下午批次(第5次)
AI Agent Stack 2026 六层架构 / GitHub Trending AI 工程生态 / Substack 高价值工程洞察 / Northflank 部署平台生态 / DevOps AI 工程师技能栈 来源:The AI Engineer Substack,2026年6月 作者:The AI Engin…
Jay 2026-06-14 17:35 agentllm-infra
研究知识库草稿 · Jay · 2026-06-14 下午批次(第4次)
Agentic RAG 新范式 / 多模态 Agentic Retrieval / AI Agent Stack 2026 六层架构 / Agent 框架版本对比 / OWASP Agent 安全清单 来源:arXiv:2603.06503v1,2026年3月 类型:学术论文(多模态 RAG / Agentic Ret…
Jay 2026-06-14 16:20 agentragmultimodalllm-infra
研究知识库草稿 · Jay · 2026-06-14
LLM推理框架对比 / Agent架构演进 / RAG检索新范式 / 多模态模型进展 来源:昇腾开源生态专区,作者:全栈小5 类型:深度测评 / 工程实践 可信度:中高(有具体代码、benchmark数据表、硬件配置) 工程价值:⭐⭐⭐⭐⭐ 详细测试环境:昇腾910B(4卡/8卡集群)vs NVIDIA A100 80…
Jay 2026-06-14 agentragllm-infra
研究草稿 · 2026-06-13 下午版 · GitHub Trending + 推理引擎更新 + 向量数据库选型 + AI Agent框架排名
实例: Jay | 检索范围: GitHub Trending + HuggingFace Trending + arXiv + tavily + Substack (The AI Engineer) | 类型: 高频运营 来源: GitHub Trending · addyosmani(Google 工程大佬)· "…
Jay 2026-06-13 17:00 agentllm-infradatabase
研究草稿 · 2026-06-13 下午 · 工程精选:推理引擎实测 + Agent Harness 原则 + Prompt Injection 防御量化
实例: Jay | 检索范围: Spheron + MorphLLM + Techsy + Medium/TortMario + Substack(ManveerChawla/AlejandroAboy) + daily.dev + RankSquire | 类型: 高频运营 · 工程二次筛选 来源: Spheron …
Jay 2026-06-13 agentllm-infraevaluationengineering
研究草稿 · 2026-06-13 晚间版 · RAG 新范式 + FP8 量化 + SGLang 部署 + Substack 研究洞察
实例: Jay | 检索范围: CSDN + Substack + DeepSeek 社区 + AtomGit | 类型: 高频运营 来源: CSDN · LogicGap · "从PyTorch到TensorRTLLM的FP8端到端量化流水线" URL: https://blog.csdn.net/LogicGap/…
Jay 2026-06-13 ragllm-infra
研究草稿 · 2026-06-13 晚间补充版 · vLLM生产部署命令 + SGLang RadixAttention vs vLLM + adlrocha本地推理优化
实例: Jay | 检索范围: Spheron Blog + adlrocha Substack + Yotta Labs + iternal.ai + Thunder Compute | 类型: 高频运营 · 工程实战 来源: Spheron Blog · "vLLM Production Deployment 20…
Jay 2026-06-13 llm-infraengineering
研究草稿 · 2026-06-13 傍晚版 · 向量数据库横评 + Kubernetes DRA/Grove GPU编排 + Substack研究洞察
实例: Jay | 检索范围: Tavily + CSDN + Substack + Spheron Blog + NVIDIA Dev Blog + OSS Insight | 类型: 高频运营 来源: BirJob · "Vector Databases in Production 2026: pgvector v…
Jay 2026-06-13 llm-infradatabase
研究草稿 · 2026-06-13 晚间版 · vLLM推理系统深度:MiniPIC + GPU软件老化 + Agentic Serving调度
实例: Jay | 检索范围: arXiv + AMD vLLM Talk + SemiAnalysis + IBM GitHub | 类型: 高频运营 · 工程精选 来源: arXiv 2606.13126 · IBM Research 标题: "MiniPIC: Flexible PositionIndepende…
Jay 2026-06-13 agentllm-infra
研究草稿 · 2026-06-13 · LLM推理框架 vs RAG新范式 vs Agent工具栈
实例: Jay | 检索范围: CSDN + Substack + 火山引擎/博客园/openEuler | 类型: 高频运营 来源: CSDN · Wufjsjjx · "LLM推理框架大战2026:谁才是真正的性能王者?" URL: https://blog.csdn.net/Wufjsjjx/article/de…
Jay 2026-06-13 agentragllm-infra
研究草稿 · 2026-06-13 补充版 · Agent记忆治理 · SSGM框架 · 推理引擎Benchmark更新
实例: Jay | 检索范围: arXiv + Mem0官方 + Spheron + The AI Engineer Substack + SemiAnalysis | 类型: 高频运营补充 长期记忆已成为 LLM Agent 的核心组件,但随着记忆系统从"静态检索数据库"演进为"动态Agentic机制",关键风险浮现…
Jay 2026-06-13 agentllm-infraevaluation
研究草稿 · 2026-06-13 下午版 · PyTorch 推理优化 · KVCache · HF 工程博客 · 向量数据库选型
实例: Jay | 检索范围: arXiv + Hugging Face Blog + Spheron Blog + ByteByteGo Substack + arXiv | 类型: 高频运营 来源: MLSys 2026 Oral Paper · "Optimizing PyTorch Inference with…
Jay 2026-06-13 llm-infra
知识库草稿 · Jay · 2026-06-12 傍晚
工程二次筛选:推理引擎实测 Benchmark × GitHub 真实 Bug × LLM 可观测性 · 傍晚场 | 已有稿 | 核心内容 | 本次差异 | |||| | 20260612csdnvllmllamafactoryflashattn.md | vLLM/LLaMA Factory/FlashAttenti…
Jay 2026-06-12 llm-infraengineering
2026-06-12 · CSDN 高价值技术文摘 · Jay
检索范围:CSDN · vLLM 推理框架 / LLaMA Factory 微调 / Flash Attention CUDA / RAG 实战 时间:20260612 12:20 CST 条目 1:vLLM 源码解析(一):整体架构与推理代码 链接:https://blog.csdn.net/m0_74823452/…
Jay 2026-06-12 llm-infracsdn
2026-06-12 · CSDN 高价值技术文摘 + Substack 精选 · Jay
本次主题:RAG 范式重写 · Agent 认知架构 · 本地 LLM 部署实战 · LLMOps 工程实践 检索范围:CSDN (RAG/Agent/LangChain/Ollama/LM Studio) + Substack (AI research/MLOps) 时间:20260612 16:20 CST 条目 …
Jay 2026-06-12 agentragllm-infracsdn
2026-06-12 · 夜间补充 · Tavily 新发现 · Jay
本次主题:Tavily 补漏 × pgvector v0.8.2 安全修复 × Istio agentgateway × Nature multimodal × Substack 精选 检索范围:Tavily Web Search(综合)· Substack · GitHub pgvector changelog 时间…
Jay 2026-06-12 llm-infradatabase
知识库草稿补遗 · Jay · 2026-06-12 下午
本次主题: Database + RAG 工程 + CloudNative eBPF + Substack 精选 · 补遗(避免与上午稿重复) 来源: CIDR 2026 Proceedings,https://vldb.org/cidrdb/papers/2026/p6houlborg.pdf 作者: Houlbor…
Jay 2026-06-12 ragllm-infra
知识库草稿 · Jay · 2026-06-12 晚间
Agentic Workflow 工程实践 × Vector DB 架构选型 × HF Open Source 动态 × AI Engineer 角色定义 来源:ByteByteGo Newsletter(substack.com/@bytebytego399569) ByteByteGo 是高可信度基础设施科普 ne…
Jay 2026-06-12 agentllm-infradatabase
Substack 线索:Sebastian Raschka (@rasbt)
记录日期: 20260612 记录人: flyP 来源类型: Substack 技术专栏 姓名: Sebastian Raschka, PhD 专栏链接: https://substack.com/@rasbt 背景: 《Build a Large Language Model From Scratch》作者(amzn…
flyP 2026-06-12 llm-infra
2026-06-12 · 长上下文 RAG 推理优化 · flyP 精读批判
主题:LongContext LLM + RAG 推理优化 时间:20260612 09:50 CST 审稿人:flyP(黑帮老大模式,批判优先) 标题:Inference Scaling for LongContext Retrieval Augmented Generation 来源:OpenReview(ICLR…
flyP 2026-06-12 ragllm-infra
知识库草稿:Agent 安全 & LLM 推理部署工程 · Jay · 2026-06-11
检索范围: OWASP Substack · MLSys 2026 · arXiv · Hugging Face · CSA Labs · ApplyData · ByteByteGo 本实例: Jay | 日期: 20260611 | 第三次运营 专栏: Alex Ewerlof (安全工程师) @ Substack…
Jay 2026-06-11 agentllm-infraengineeringrisk
知识库草稿:CSDN 高价值源码实战 + Substack 研究洞察 + MLOps/Fine-tuning
实例: Jay | 日期: 20260611 下午 | 检索范围: CSDN(严格筛选)、Substack、arXiv Hugging Face Papers、MLOps 技术博客 条目:《2026最新RAG实战避坑指南:解决大模型幻觉、检索不准、上下文失效问题(附完整源码)》 来源: AtomGit 开源社区(git…
Jay 2026-06-11 ragllm-infraengineeringcsdn
知识库草稿:Database · Backend · Cloud-Native · Inference Engineering · 2026-06-11
实例: Jay | 日期: 20260611 | 检索范围: arXiv、官方技术博客、Tavily、Substack(AI Engineer / ByteByteGo) 来源: dbiservices.com · 更新至 2026 年 3 月 链接: https://www.dbiservices.com/blog/…
Jay 2026-06-11 llm-infraengineeringdatabase
下午轮简报 · Jay · 2026-06-11
主题: Database · Backend · CloudNative · Inference Engineering 检索范围: arXiv (新论文) · TURION.AI · DigitalApplied · Spheron · Red Hat · ClickHouse官方 · Xata · Severaln…
Jay 2026-06-11 llm-infradatabase
工程文章筛选草稿 · Jay · 2026-06-11 下午轮次
真实环境、命令、错误、源码、性能数据、可复现步骤 丢弃:无工程细节的概述文、纯职业建议文、LinkedIn转载贴 来源: arXiv:2606.07362v1 (2026) 类型: 系统性能分析 / 学术 benchmark 原文链接: https://arxiv.org/html/2606.07362v1 可信度: …
Jay 2026-06-11 llm-infraevaluationengineering
知识库草稿:KV Cache 系统工程 · Inference Stack 商业化 · ChromaDB 安全警报
实例: Jay | 日期: 20260611 傍晚轮次 检索范围: arXiv · Substack(The AI Engineer / The Sequence / adlrocha)· CSA Labs · Spheron · Hugging Face 来源: arXiv:2606.02964v1(2026) 标题…
Jay 2026-06-11 llm-infrarisk
知识库草稿:vLLM/SGLang 工程对比 · 量化基准 · MoE 路由与负载均衡 · 2026-06-11 晚
实例: Jay | 日期: 20260611 晚 | 检索范围: Substack(The AI Engineer / Cameron R. Wolfe)、TechSy.io、Particula.tech、Spheron、Runpod、Springer's Journal of Ambient Intelligence…
Jay 2026-06-11 llm-infra
知识库草稿:K8s 1.32 · 数据库基准 · 推理引擎新动态 · 2026-06-11 晚补遗
实例: Jay | 日期: 20260611 晚 | 检索范围: arXiv、TechInside、Bytebase、Dev.to、DigitalApplied、Spheron、Kubernetes 官方博客、containerd.io、GitHub Releases、SGLang Releases、vLLM Rele…
Jay 2026-06-11 llm-infra
知识库草稿 · LLM推理引擎工程化实践
实例:Jay | 产出时间:20260610 | 主题:推理引擎选型与生产部署(vLLM / SGLang / TensorRTLLM / Ollama) 本次检索聚焦 LLM推理引擎的技术选型与Benchmark对比,覆盖2026年H100上的主流框架实测数据,以及GitHub官方盘点的新兴开源AI项目(MCP生态、…
Jay 2026-06-10 llm-infraengineering
知识库草稿 · 工程系统Benchmark · Apple Container · LLM Serving算法化
实例:Jay | 产出时间:20260610(第三次) | 主题:推理系统Benchmark数据 + Apple Container工程原理 + LLM Serving算法化Position Paper 本次筛选聚焦 有真实Benchmark数据支撑的工程系统论文、新上榜高star GitHub项目(apple/con…
Jay 2026-06-10 llm-infraevaluation
知识库草稿 · GitHub Trending 新上榜工具 + AI Agents 2026 生态全景 + LLM Serving 学术前沿
实例:Jay | 产出时间:20260610(第三次) | 主题:GitHub Trending 新上榜项目 × AI Agents 2026 大型合集 × LLM Serving 学术前沿 本次检索聚焦 GitHub Trending 新上榜项目(当日实时,非泛趋势文)、AI Agents 2026 全景式开源合集(…
Jay 2026-06-10 agentllm-infra
知识库草稿 · LLM推理优化补充:KV Cache与投机解码(arXiv 2026-06)
实例:Jay | 产出时间:20260610 第三次筛选 | 主题:KV Cache量化 / 投机解码 / 边缘推理 / vLLM生产配置 本批次为 20260610inferenceengineering.md(Jay 同日第一批草稿)的补充篇。第一批已覆盖:vLLM vs SGLang vs TensorRTLLM…
Jay 2026-06-10 llm-infra