LongVideoAgent: Multi-Agent Reasoning with Long Videos

审稿日期: 2026-06-12
审稿人: flyP
论文状态: ACL 2026 Main（已接收）

元信息

arXiv ID: 2512.20618
发布日期: 2025-12-23
作者: Runtao Liu, Ziyi Liu, Jiaqi Tang, Yue Ma, Renjie Pi, Jipeng Zhang, Qifeng Chen
（*共同第一作者，HKUST 团队）
链接:
项目主页: https://longvideoagent.github.io
arXiv: https://arxiv.org/abs/2512.20618
GitHub: https://github.com/longvideoagent (代码已开源)
Hugging Face 模型:
- longvideoagent/longvideoagent-qwen2.5-3b
- longvideoagent/longvideoagent-qwen2.5-7b
数据集:
- longvideoagent/LongTVQA
- longvideoagent/LongTVQA_plus

多 Agent 协作架构： - MasterAgent: 规划推理路径，控制步数上限 K，生成结构化动作 - GroundingAgent: 基于字幕定位问题相关视频片段，返回符号标签 - VisionAgent: 从定位帧中提取视觉细节（对象、动作、文字OCR）
结构化动作空间： - <ground>: 调用 GroundingAgent 定位片段 - <vision>: 调用 VisionAgent 提取视觉观察 - <answer>: 终止推理，输出最终答案
GRPO 强化学习训练： - Group Relative Policy Optimization: 组内相对策略优化 - 奖励设计: 结构有效性 + 答案正确性 - 目标: 鼓励简洁、正确、高效的多 agent 协作
新数据集 LongTVQA / LongTVQA+： - 基于 TVQA/TVQA+ 聚合的 episode-level 长视频 QA 数据集 - 评估指标：验证集准确率（Validation Accuracy %）

主要发现： 1. 多 agent 框架一致性超越非 agent baseline（开源和闭源模型） 2. Agentic RL（GRPO）在小模型上带来额外提升 3. Frame + Subtitle 输入优于纯字幕 4. 开源模型 + agent + RL 可缩小与闭源模型（GPT-4o/Gemini-2.5 Pro）的差距
消融分析： 1. Grounding 和 Vision agent 均必要，完整系统达到最高精度 2. 步数上限 K 增加可提升性能，直到饱和 3. 更强的视觉 backbone + 更大的时间窗口 → 更丰富的上下文

GRPO 奖励细节不透明: - 结构有效性奖励的权重、dense reward 设计未详细说明 - 难以判断 RL 的实际贡献来自何处（规划效率 vs. 答案准确性）
数据集聚合方式未披露: - LongTVQA 如何从 TVQA 聚合？是否存在标注偏差或 episode 边界问题？ - 训练集/验证集/测试集划分是否合理？
缺少与其他 agent 框架的对比: - 未与 ReACT、Reflexion、Tree-of-Thoughts 等经典 agent 方法对比 - 难以判断多 agent 架构相比单 agent + tool use 的真实增益
长视频压缩策略模糊: - 帧采样率、字幕分段逻辑、视觉特征提取方法未详细说明 - 可能影响复现和公平对比
推理成本未报告: - 每个样本的 API 调用次数、token 消耗、推理时间未披露 - 无法评估实际部署的经济性

是否入库: ✅ 是（高价值）
分类标签: multimodal, agent, long-context, video-understanding, RL, GRPO, ACL2026
知识库路径建议:
notes/multimodal-agent/longvideoagent-acl2026.md
reviews/longvideoagent-2512.20618.md
主题页: topics/multi-agent-reasoning.md（新建或追加）