请问basemodel：qwen2.5vl的结果是用什么prompt测试的？

您好，想请教一下您在video-r1这个论文中测试qwen2.5vl的时候prompt是跟video-r1保持一致的吗？但是实际上video-r1的prompt还是和正常的简单prompt略微不同的。我在lmms-eval中测试qwen2.5vl时，prompt使用简单的正常的prompt，发现结果实际上会比您论文中的结果高（且比Video R1高）。最近我发现同样现象也出现在这个论文中https://arxiv.org/pdf/2601.05175，table 3中是可以发现qwen2.5vl是比您VideoR1高的。

我想了解一下您当时测试qwen2.5vl的时候，prompt是否是由于和video r1保持一致，但是实际上会导致测试的分数偏低呢？