← 论文卡片

14. LLM 推理在线调度:hindsight optimal benchmark

  • 类型:arxiv
  • 标识:2502.07115
  • 链接:https://arxiv.org/abs/2502.07115
  • 主题:agent, database, engineering, evaluation, llm-infra, multimodal, rag
  • 来源文件
  • /inbox/jay/2026-06-11-database-backend-cloudnative-inference.md
  • /inbox/jay/2026-06-17-1100-ml-sys-inference-kv-llmops-cloudnative.md

可复用信息

    • 模拟人类记忆系统:短期记忆(HBM,高精度)vs 长期记忆(DRAM,低精度)
    • 三个维度:Tier Layout(存储分层)/ Tier Content(按时间 proximity 分配)/ Tier Interaction(block-wise streaming attention 隐藏慢层延迟)
    • 性能数据:
    • 128K context 任务:跨层流量减少 5.94x
    • 延迟降低 76%,吞吐量提升 2x
    • 评价: HBM+DRAM 分层方案在长上下文推理场景有明确工程价值;值得关注国内是否有类似硬件配置的生产实现
    • 标签: kv-cache long-context memory-hierarchy llm arXiv
    • 来源: arXiv:2502.07115v5

写作用途

  • 可放入 RAG / 知识库 / 检索增强相关工作的对比段。
  • 可用于 Agent 架构、记忆、工具调用或多智能体研究背景。
  • 可用于多模态推理、视觉语言模型或长上下文多模态问题定义。
  • 可用于系统实现、实验平台或工程约束说明。

待补齐

  • BibTeX / 正式引用格式
  • 方法与实验设置细节
  • 与现有工作的差异点
  • 是否有代码和数据集