您好,想请教一下您在video-r1这个论文中测试qwen2.5vl的时候prompt是跟video-r1保持一致的吗?但是实际上video-r1的prompt还是和正常的简单prompt略微不同的。我在lmms-eval中测试qwen2.5vl时,prompt使用简单的正常的prompt,发现结果实际上会比您论文中的结果高(且比Video R1高)。最近我发现同样现象也出现在这个论文中https://arxiv.org/pdf/2601.05175,table 3中是可以发现qwen2.5vl是比您VideoR1高的。
我想了解一下您当时测试qwen2.5vl的时候,prompt是否是由于和video r1保持一致,但是实际上会导致测试的分数偏低呢?