Multimodal 补充候选

可复用信息

1. LabVLA: Grounding Vision-Language-Action Models in Scientific Laboratories
- 来源：arXiv:2606.13578 / Hugging Face / GitHub
- 链接：https://arxiv.org/abs/2606.13578；https://huggingface.co/zjunlp/LabVLA；https://github.com/zjunlp/LabVLA
- 核心观点：面向科学实验室场景的 VLA 模型，Qwen3-VL-4B-Instruct + DiT flow-matching action expert；HF 页面提供下载和部署命令。
- 可信度：高。论文、模型、GitHub 均有；但真实实验室部署与模拟环境差距需重点审稿。
- 分类：multimodal vla robotics scientific-lab
- 建议：作为今日 multimodal 补位优先条目。
1. DashboardQA: Benchmarking Multimodal Agents for Question Answering on Interactive Dashboards