← 论文卡片

7. Triton Attention Kernel 学术分析 (arXiv 2511.11581)

  • 类型:arxiv
  • 标识:2511.11581
  • 链接:https://arxiv.org/abs/2511.11581
  • 主题:agent, database, engineering, evaluation, llm-infra, rag
  • 来源文件
  • /inbox/jay/2026-06-17-1450-engineering-filter-vllm-sglang-kernel-oom.md

可复用信息

    • 涉及 Flash Attention tiling 和 memory access patterns
  • 核心要点:
    • Q/K/V 矩阵乘法融合是常见优化,但超过此范围的融合因寄存器限制有挑战
    • Flash Attention 已逼近 kernel 复杂度上限

  • 来源: arXiv:2511.11581
  • 保留理由:
    • H100 上 4 种 attention kernel 实现性能对比

写作用途

  • 可放入 RAG / 知识库 / 检索增强相关工作的对比段。
  • 可用于 Agent 架构、记忆、工具调用或多智能体研究背景。
  • 可用于系统实现、实验平台或工程约束说明。

待补齐

  • BibTeX / 正式引用格式
  • 方法与实验设置细节
  • 与现有工作的差异点
  • 是否有代码和数据集