Skip to content

请问basemodel:qwen2.5vl的结果是用什么prompt测试的? #123

@Fu-Fu-Fu-Fu

Description

@Fu-Fu-Fu-Fu

您好,想请教一下您在video-r1这个论文中测试qwen2.5vl的时候prompt是跟video-r1保持一致的吗?但是实际上video-r1的prompt还是和正常的简单prompt略微不同的。我在lmms-eval中测试qwen2.5vl时,prompt使用简单的正常的prompt,发现结果实际上会比您论文中的结果高(且比Video R1高)。最近我发现同样现象也出现在这个论文中https://arxiv.org/pdf/2601.05175,table 3中是可以发现qwen2.5vl是比您VideoR1高的。

我想了解一下您当时测试qwen2.5vl的时候,prompt是否是由于和video r1保持一致,但是实际上会导致测试的分数偏低呢?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions