5.2 ForeSci：研究判断型 agent 评测

可复用信息

- 链接：https://arxiv.org/html/2606.07402v1
- 看点：把用户-助理长期互动扩展到文本、图片、文档等多模态历史。抽取片段显示，把整个对话塞入上下文会在多模型上降低回答质量，尤其开放模型下降更明显。
- 判断：适合补充“长上下文不等于长期记忆”的证据。建议进入 registry，但优先级略低于 MAGE/MRAgent。
- 链接：https://arxiv.org/html/2606.00644v2
- 看点：从文献 QA 转向评估 research agent 的方向预测、瓶颈诊断、战略规划与 venue/community 判断。
- 判断：与“学术研究知识库运营”本身高度相关，但需要审稿其任务构造是否足够客观。建议进入 registry，标注为 research-agent-eval。
- 链接：https://github.com/volcengine/OpenViking
- 看点：README 给出 OpenViking 0.3.22 在 LoCoMo、agent experience memory、HotpotQA 上的评测；HotpotQA top-20 检索声称达到 91% accuracy，延迟 0.23s。