研究库

4.4 OpenComputer：Verifiable Software Worlds for Computer-Use Agents

arXiv:2605.19769

详情 arXiv ↗ PDF

4.1 MAGE：Memory as Execution State Management for Long-Horizon Agents

arXiv:2606.06090

详情 arXiv ↗ PDF

条目R2：RAG over Thinking Traces — 思维痕迹检索改善推理任务（arXiv 2605.03344v2）

arXiv:2605.03344

详情 arXiv ↗ PDF

9️⃣ arXiv · Benchmarking Multimodal Memory for Realistic User-Agent Interactions（M3Exam）（⭐⭐⭐ 参考）

arXiv:2606.07402

详情 arXiv ↗ PDF

8. Islamic Large Language Models

arXiv:2606.16629

详情 arXiv ↗ PDF

7. SCAR: Semantic Continuity-Aware Retrieval for Efficient Context Expansion

arXiv:2606.16661

详情 arXiv ↗ PDF

5. VideoRAG & V-RAGBench

arXiv:2606.13141

详情 arXiv ↗ PDF

4. Lost at the End: Primacy Bias in Multimodal Retrieval-Augmented QA

arXiv:2606.16494

详情 arXiv ↗ PDF

3. PathRouter: Aligning Rewards with Retrieval Quality in Agentic Graph RAG

arXiv:2606.16409

详情 arXiv ↗ PDF

2. User as Code: Executable Memory for Personalized Agents

arXiv:2606.16707

详情 arXiv ↗ PDF

2. DIVERGE: Diversity-Enhanced RAG

arXiv:2602.00238

详情 arXiv ↗ PDF

1. Directory-Aware Query and Maintenance in Vector Databases

arXiv:2606.16903

详情 arXiv ↗ PDF

5.2 ForeSci：研究判断型 agent 评测

arXiv:2606.00644

详情 arXiv ↗ PDF

4.5 Efficient RAG with Intent-Aware Retrieval and Semantics-Preserving Chunking

arXiv:2606.01240

详情 arXiv ↗ PDF

4.3 π-Bench：Proactive Personal Assistant Agents in Long-Horizon Workflows

arXiv:2605.14678

详情 arXiv ↗ PDF

4.2 MRAgent：Memory is Reconstructed, Not Retrieved

arXiv:2606.06036

详情 arXiv ↗ PDF

元信息

arXiv:2602.04476

详情 arXiv ↗ PDF

论文信息

arXiv:2606.17053

详情 arXiv ↗ PDF

MMLongEmbed: 多模态嵌入模型长上下文基准测试

arXiv:2606.14747

详情 arXiv ↗ PDF

5. Agents' Last Exam (ALE)

arXiv:2606.05405

详情 arXiv ↗ PDF

5️⃣ Multi-Segment Attention · 分块位置感知KV驱逐 — arXiv:2606.02964（⭐⭐⭐ 新鲜 arXiv）

arXiv:2606.02964

详情 arXiv ↗ PDF

1️⃣2️⃣ arXiv · RAGPerf: End-to-End RAG Benchmarking Framework（⭐⭐⭐ 参考）

arXiv:2603.10765

详情 arXiv ↗ PDF

1️⃣ RTP-LLM · 阿里巴巴工业级推理引擎 — arXiv:2605.29639（⭐⭐⭐⭐⭐ 必读）

arXiv:2605.29639

详情 arXiv ↗ PDF

7️⃣ arXiv · Position Paper：LLM Serving 需要数学优化，而非仅靠启发式 ⭐⭐⭐⭐⭐ 学术前沿

arXiv:2605.01280

详情 arXiv ↗ PDF

6. Understanding the Behaviors of Environment-aware Information Retrieval

arXiv:2606.16817

详情 arXiv ↗ PDF

5. SwiftCache: Efficient LLM Serving for Multi-turn Conversations

arXiv:2606.16135

详情 arXiv ↗ PDF

🟡 保留 4："The Last Harness" — Meta-Evolution 双层循环

arXiv:2604.21003

详情 arXiv ↗ PDF

🔴 保留 · `Frontier Coding Agents Use Metaprogramming to Adapt to Unfamiliar Tasks`

arXiv:2606.10933

详情 arXiv ↗ PDF

🔴 保留 3：Agentic Harness Engineering (AHE) — arXiv 实证论文

arXiv:2604.25850

详情 arXiv ↗ PDF

Agent runtime / security / harness 补充候选

arXiv:2603.25723

详情 arXiv ↗ PDF

2.3 本轮补充公开检索

arXiv:2606.10106

详情 arXiv ↗ PDF

2. AI Engineering Blueprint for On-Premises RAG（arXiv:2604.01395）

arXiv:2604.01395

详情 arXiv ↗ PDF

11. KV Cache 优化全景综述（arXiv 2026）

arXiv:2603.20397

详情 arXiv ↗ PDF

论文信息

arXiv:2511.01633

详情 arXiv ↗ PDF

论文信息

arXiv:2512.24601

详情 arXiv ↗ PDF

元信息

arXiv:2502.20330

详情 arXiv ↗ PDF

元信息

arXiv:2512.20618

详情 arXiv ↗ PDF

元信息

arXiv:2509.23040

详情 arXiv ↗ PDF

元信息

arXiv:2503.06692

详情 arXiv ↗ PDF

MMProLong:长上下文视觉语言模型的有效续训练(精读 · flyP)

arXiv:2605.13831

详情 arXiv ↗ PDF

LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning

arXiv:2505.16933

详情 arXiv ↗ PDF

8. When Iterative RAG Beats Ideal Evidence

arXiv:2601.19827

详情 arXiv ↗ PDF

7. Decentralized Multi-Agent Systems with Shared Context (DeLM)

arXiv:2606.10662

详情 arXiv ↗ PDF

6. Evaluation and Benchmarking of LLM Agents: A Survey

arXiv:2507.21504

详情 arXiv ↗ PDF

5. Context-Fractured Decomposition Attacks on Tool-Using LLM Agents

arXiv:2606.09084

详情 arXiv ↗ PDF

4. Parthenon Law: A Self-Evolving Legal-Agent Framework

arXiv:2606.04602

详情 arXiv ↗ PDF

🔟 arXiv · 后确定性分布式系统：自主基础设施新基础 ⭐⭐⭐⭐ 学术前沿

arXiv:2606.01722

详情 arXiv ↗ PDF

条目D2：When More Cores Hurts — HPC环境中向量数据库扩展悖论（arXiv 2606.08950，2026-06）

arXiv:2606.08950

详情 arXiv ↗ PDF

SSGM框架（Stability and Safety-Governed Memory）

arXiv:2603.11768

详情 arXiv ↗ PDF

6. Stratum — Agent 生成管道的 Rust 高性能运行时

arXiv:2603.03589

详情 arXiv ↗ PDF

3. Experience as Compass: Multi-Agent RAG with Evolving Orchestration（arXiv:2604.00901）

arXiv:2604.00901

详情 arXiv ↗ PDF

🔴 保留 · `Exploration Structure in LLM Agents for Multi-File Change Localization`

arXiv:2606.11976

详情 arXiv ↗ PDF

多智能体系统瓶颈综述（ICLR 2026 论文聚焦）

arXiv:/inbox/flyp/2026-06-17-multi-agent-bottleneck.md

详情 arXiv ↗

Substack 线索：Sebastian Raschka (@rasbt)

arXiv:/inbox/flyp/2026-06-12-substack-rasbt.md

详情 arXiv ↗

DrivePI: Spatial-aware 4D MLLM for Unified Autonomous Driving

arXiv:/inbox/flyp/2026-06-11-DrivePI-4D-MLLM-autonomous-driving.md

详情 arXiv ↗

BabyVision: Visual Reasoning Beyond Language

arXiv:/inbox/flyp/2026-06-16-BabyVision-inverted-competence.md

详情 arXiv ↗

2026-06-11 Agent 与空间推理文献审稿

arXiv:/inbox/flyp/2026-06-11-agent-spatial.md

详情 arXiv ↗

2026-06-10 多模态文献简报

arXiv:/inbox/flyp/2026-06-10-multimodal.md

详情 arXiv ↗

2.3 LLM驱动AI智能体系统及其行业应用综述

arXiv:2505.16120

详情 arXiv ↗ PDF

2.2 LLM Agents 不确定性量化：挑战与机遇

arXiv:2602.05073

详情 arXiv ↗ PDF

2.1 AgentLeak: 多智能体系统隐私泄露基准

arXiv:2602.11510

详情 arXiv ↗ PDF

🔴 保留 · `Toward Secure LLM Agents: Threat Surfaces, Attacks, Defenses, and Benchmarking`

arXiv:2606.10749

详情 arXiv ↗ PDF

🔴 保留 · `The End of Code Review: Coding Agents Supersede Human Reviewers`

arXiv:2606.13175

详情 arXiv ↗ PDF

🔴 保留 · `PROJECTMEM: A Local-First, Event-Sourced Memory and Judgment Layer for AI Coding Agents`

arXiv:2606.12329

详情 arXiv ↗ PDF

🔴 保留 · `DeNovoSWE: Scaling Long-Horizon Environments for Generating Entire Repositories from Scratch`

arXiv:2606.10728

详情 arXiv ↗ PDF

🔴 保留 · `Agent Skill Evaluation and Evolution: Frameworks and Benchmarks`

arXiv:2606.11435

详情 arXiv ↗ PDF

论文信息

arXiv:2606.11916

详情 arXiv ↗ PDF

核心信息

arXiv:2604.16548

详情 arXiv ↗ PDF

条目R1：MAGMaR 2026 Shared Task — 多模态增强生成的ACL 2026 Workshop（arXiv 2606.12295）

arXiv:2606.12295

详情 arXiv ↗ PDF

条目D3：UnWeaving GraphRAG — GraphRAG vs VectorRAG 理论分析（arXiv 2603.29875v3）

arXiv:2603.29875

详情 arXiv ↗ PDF

条目D1：SIFT — 利用注意力不变性加速RAG Prefill（arXiv 2606.09441，2026-06）

arXiv:2606.09441

详情 arXiv ↗ PDF

条目A3：From Standalone LLMs to Integrated Intelligence — Compound AI Systems 综述

arXiv:2506.04565

详情 arXiv ↗ PDF

条目A2：Text World Models for LLM-based Agents

arXiv:2606.09032

详情 arXiv ↗ PDF

条目A1：BRTR — Beyond Rows to Reasoning：多模态电子表格 Agentic Retrieval 框架

arXiv:2603.06503

详情 arXiv ↗ PDF

条目 G: 公共部门 ML Pipeline 工程教训（含性能数据表）

arXiv:2511.01545

详情 arXiv ↗ PDF

条目 F: Google 企业定制 LLM — 代码转换实战数据

arXiv:2605.16517

详情 arXiv ↗ PDF

条目 E-NF2：MLOps 架构指南 — 25 条模型集成/部署规范（灰色文献综述）

arXiv:2606.06535

详情 arXiv ↗ PDF

条目 E-NF1：Albireo — 突破 Amdahl 定律的 LLM 推理张量并行调度

arXiv:2606.01927

详情 arXiv ↗ PDF

条目 A02：Corpus2Skill — 将文档语料库蒸馏为可导航技能目录

arXiv:2604.14572

详情 arXiv ↗ PDF

【arXiv】MCP-Persona：Benchmarking LLM Agents on Real-World Personal Applications

arXiv:2606.02470

详情 arXiv ↗ PDF

⑥ "How are MLOps Frameworks Used in Open Source Projects"（arXiv:2601.18591）

arXiv:2601.18591

详情 arXiv ↗ PDF

⑤ MLOps系统综述（arXiv:2604.16371）

arXiv:2604.16371

详情 arXiv ↗ PDF

③ "Keyword search is all you need"（Amazon Science, AAAI 2026, arXiv:2602.23368）

arXiv:2602.23368

详情 arXiv ↗ PDF

② "Living Databases: A Unified Model for Continuous Schema Evolution, Versioning, and Transformations"（arXiv:2605.00676v1）

arXiv:2605.00676

详情 arXiv ↗ PDF

② "Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG"（arXiv:2501.09136v4，2026-04更新）

arXiv:2501.09136

详情 arXiv ↗ PDF

① FROAV: A Framework for RAG Observation and Agent Verification（arXiv:2601.07504v1）

arXiv:2601.07504

详情 arXiv ↗ PDF

arXiv-3：A First Look at the Security Issues in the Model Context Protocol Ecosystem

arXiv:2510.16558

详情 arXiv ↗ PDF

arXiv-1：Design Patterns for Deploying AI Agents with Model Context Protocol

arXiv:2603.13417

详情 arXiv ↗ PDF

9️⃣ arXiv · 下一代云原生内存数据库：从 Redis 到 Valkey ⭐⭐⭐⭐⭐ 必读评测

arXiv:2510.19805

详情 arXiv ↗

8. TrustMargin：RAG 答案级仲裁框架

arXiv:2606.08397

详情 arXiv ↗ PDF

7️⃣ ByteHouse · 字节跳动云原生数据仓库架构深度解析（arXiv）⭐⭐⭐⭐ 系统复现

arXiv:2602.08226

详情 arXiv ↗ PDF

7. LLM 压缩：联合剪枝 + 混合精度 PTQ

arXiv:2606.07819

详情 arXiv ↗ PDF

6. QBugLM：量子软件调试多智能体框架

arXiv:2606.07314

详情 arXiv ↗ PDF

6. LLM Research Papers: The 2026 List (Jan–May) — Sebastian Raschka

arXiv:2601.21204

详情 arXiv ↗ PDF

6. LLM Research Papers: The 2026 List (Jan–May) — Sebastian Raschka

arXiv:2602.08071

详情 arXiv ↗ PDF

6. LLM Research Papers: The 2026 List (Jan–May) — Sebastian Raschka

arXiv:2602.15763

详情 arXiv ↗ PDF

6. LLM Research Papers: The 2026 List (Jan–May) — Sebastian Raschka

arXiv:2603.15031

详情 arXiv ↗ PDF

6. LLM Research Papers: The 2026 List (Jan–May) — Sebastian Raschka

arXiv:2603.15569

详情 arXiv ↗ PDF

6. LLM Research Papers: The 2026 List (Jan–May) — Sebastian Raschka

arXiv:2604.12374

详情 arXiv ↗ PDF

5. GraphRAG / LLMs+Graphs 综合研究

arXiv:2606.11560

详情 arXiv ↗ PDF

4️⃣ arXiv · LoRAFusion（⭐⭐⭐ 值得追踪）

arXiv:2510.00206

详情 arXiv ↗ PDF

4. The End of Software Engineering（arXiv:2606.05608）

arXiv:2606.05608

详情 arXiv ↗ PDF

3️⃣ arXiv · MatryoshkaLoRA（⭐⭐⭐⭐ 值得关注）

arXiv:2605.07850

详情 arXiv ↗ PDF

3. Tutti：让 SSD 后备 KV Cache 成为长上下文生产方案

arXiv:2605.03375

详情 arXiv ↗ PDF

3. Kubernetes for GenAI Inference（arXiv:2602.04900v2）

arXiv:2602.04900

详情 arXiv ↗ PDF

3. Flow-Controlled Scheduling for LLM Inference（arXiv 2604.11001）

arXiv:2604.11001

详情 arXiv ↗ PDF

2.4 LLM多智能体系统：挑战与开放问题

arXiv:2402.03578

详情 arXiv ↗ PDF

2. 分布式向量数据库 Qdrant 在 HPC 上的性能（arXiv 2509.12384，2025-09，持续更新）

arXiv:2509.12384

详情 arXiv ↗ PDF

2. Systemic Measurement Bias in LLM Inference Benchmarking

arXiv:2605.24217

详情 arXiv ↗ PDF

2. DualPath：打破 Agentic LLM 推理的存储带宽瓶颈

arXiv:2602.21548

详情 arXiv ↗ PDF

1️⃣ arXiv · Learning Rate Matters: Vanilla LoRA May Suffice（⭐⭐⭐⭐⭐ 必读）

arXiv:2602.04998

详情 arXiv ↗ PDF

12. SoK: Agentic RAG（arXiv 2603.07379，ACL 2026）

arXiv:2603.07379

详情 arXiv ↗ PDF

11. AgenticRAGTracer（arXiv 2602.19127）

arXiv:2602.19127

详情 arXiv ↗ PDF

10. Cloud Native System for LLM Inference Serving（arXiv 2507.18007）

arXiv:2507.18007

详情 arXiv ↗ PDF

1. vLLM Startup Latency: Six-Step Systematic Characterization

arXiv:2606.07362

详情 arXiv ↗ PDF

1. Data Flow Control（DFC）：AI Agent 数据安全策略的内核级执行框架

arXiv:2606.05679

详情 arXiv ↗ PDF

1. AlphaEval: Evaluating Agents in Production

arXiv:2604.12162

详情 arXiv ↗ PDF

Systems 补充候选

arXiv:2511.02230

详情 arXiv ↗ PDF

Systems 补充候选

arXiv:2606.01751

详情 arXiv ↗ PDF

Systems 补充候选

arXiv:2606.03910

详情 arXiv ↗ PDF

Systems 补充候选

arXiv:2510.09665

详情 arXiv ↗ PDF

Multimodal 补充候选

arXiv:2606.13578

详情 arXiv ↗ PDF

Multimodal 补充候选

arXiv:2508.17398

详情 arXiv ↗ PDF

4.2 Reliability 不等于成功率：12 指标拆出 consistency / robustness / predictability / safety

arXiv:2602.16666

详情 arXiv ↗ PDF

4.1 LogicalRAG：把 Agentic RAG 的重点从“更重 backend”转向“更强 retrieval control”

arXiv:2605.27123

详情 arXiv ↗ PDF

2.3 本轮补充公开检索

arXiv:2606.14589

详情 arXiv ↗ PDF

2.3 本轮补充公开检索

arXiv:2606.14061

详情 arXiv ↗

论文卡片