LongVideoAgent: Multi-Agent Reasoning with Long Videos
审稿日期: 2026-06-12
审稿人: flyP
论文状态: ACL 2026 Main(已接收)
元信息
- arXiv ID: 2512.20618
- 发布日期: 2025-12-23
- 作者: Runtao Liu, Ziyi Liu, Jiaqi Tang, Yue Ma, Renjie Pi, Jipeng Zhang, Qifeng Chen
(*共同第一作者,HKUST 团队) - 链接:
- 项目主页: https://longvideoagent.github.io
- arXiv: https://arxiv.org/abs/2512.20618
- GitHub: https://github.com/longvideoagent (代码已开源)
- Hugging Face 模型:
longvideoagent/longvideoagent-qwen2.5-3blongvideoagent/longvideoagent-qwen2.5-7b
- 数据集:
longvideoagent/LongTVQAlongvideoagent/LongTVQA_plus
核心贡献
-
多 Agent 协作架构: - MasterAgent: 规划推理路径,控制步数上限 K,生成结构化动作 - GroundingAgent: 基于字幕定位问题相关视频片段,返回符号标签 - VisionAgent: 从定位帧中提取视觉细节(对象、动作、文字OCR)
-
结构化动作空间: -
<ground>: 调用 GroundingAgent 定位片段 -<vision>: 调用 VisionAgent 提取视觉观察 -<answer>: 终止推理,输出最终答案 -
GRPO 强化学习训练: - Group Relative Policy Optimization: 组内相对策略优化 - 奖励设计: 结构有效性 + 答案正确性 - 目标: 鼓励简洁、正确、高效的多 agent 协作
-
新数据集 LongTVQA / LongTVQA+: - 基于 TVQA/TVQA+ 聚合的 episode-level 长视频 QA 数据集 - 评估指标:验证集准确率(Validation Accuracy %)
实验结果摘要
-
主要发现: 1. 多 agent 框架一致性超越非 agent baseline(开源和闭源模型) 2. Agentic RL(GRPO)在小模型上带来额外提升 3. Frame + Subtitle 输入优于纯字幕 4. 开源模型 + agent + RL 可缩小与闭源模型(GPT-4o/Gemini-2.5 Pro)的差距
-
消融分析: 1. Grounding 和 Vision agent 均必要,完整系统达到最高精度 2. 步数上限 K 增加可提升性能,直到饱和 3. 更强的视觉 backbone + 更大的时间窗口 → 更丰富的上下文
批判性分析
✅ 优点
- 系统设计清晰: 三 agent 分工明确,结构化动作空间易于理解和调试
- 开源完整: 代码 + 模型权重 + 数据集全部公开,可复现性强
- ACL 2026 Main 接收: 顶会认可,学术价值高
- 实验充分: 多个 baseline、消融实验、RL vs. 非 RL 对比
❌ 主要问题
-
GRPO 奖励细节不透明: - 结构有效性奖励的权重、dense reward 设计未详细说明 - 难以判断 RL 的实际贡献来自何处(规划效率 vs. 答案准确性)
-
数据集聚合方式未披露: - LongTVQA 如何从 TVQA 聚合?是否存在标注偏差或 episode 边界问题? - 训练集/验证集/测试集划分是否合理?
-
缺少与其他 agent 框架的对比: - 未与 ReACT、Reflexion、Tree-of-Thoughts 等经典 agent 方法对比 - 难以判断多 agent 架构相比单 agent + tool use 的真实增益
-
长视频压缩策略模糊: - 帧采样率、字幕分段逻辑、视觉特征提取方法未详细说明 - 可能影响复现和公平对比
-
推理成本未报告: - 每个样本的 API 调用次数、token 消耗、推理时间未披露 - 无法评估实际部署的经济性
⚠️ 局限性
- 泛化性未验证: 只在 LongTVQA 上测试,是否适用于其他长视频 benchmark(EgoSchema、NExT-QA)未知
- 训练依赖
verl新版分支: 可能需要环境调试,复现门槛略高
可信度评估
- 学术可信度: ⭐⭐⭐⭐⭐ (ACL 2026 Main + 代码开源 + HKUST 团队)
- 复现可信度: ⭐⭐⭐⭐☆ (代码开源但训练依赖特定环境)
- 工程价值: ⭐⭐⭐⭐☆ (架构清晰但推理成本未知)
建议后续动作
- 精读论文附录: 消融实验、失败案例分析、GRPO 实现细节
- 检查 GitHub 代码: GRPO reward 设计、训练脚本、数据处理 pipeline
- 对比 ReMemR1: GRPO vs. RLMLR(多层奖励)的异同
- 测试泛化性: 在 EgoSchema、NExT-QA 等公开 benchmark 上评估
- 估算成本: 分析推理时 token 消耗和 API 调用次数
入库建议
- 是否入库: ✅ 是(高价值)
- 分类标签:
multimodal,agent,long-context,video-understanding,RL,GRPO,ACL2026 - 知识库路径建议:
notes/multimodal-agent/longvideoagent-acl2026.mdreviews/longvideoagent-2512.20618.md- 主题页:
topics/multi-agent-reasoning.md(新建或追加)
相关工作线索
- ReMemR1 (arXiv 2509.23040): 长上下文 agent + callback memory + RLMLR
- TVQA/TVQA+ 原始数据集: 需回溯查看数据构造方法
- GRPO 原始论文: 需确认算法来源和实现细节
- Gemini 2.5 Pro 技术报告: 作为 baseline 对比,需查看长视频能力声明
审稿人备注:
本论文设计扎实,开源完整,值得入库。主要问题在于 GRPO 奖励设计和数据集聚合方式不够透明,建议后续补充精读附录和代码验证。推荐与 ReMemR1 对比学习 RL 训练策略的不同设计思路。