本页用于整理 AI coding(Vibe Coding)/ Coding Agent 方向常见 benchmark、评测任务和实验参考资源,服务于实验设计与研究比较。
-
当前 Coding Agent 评测的事实标准。从真实 GitHub issue 出发,要求 agent 在完整仓库中定位问题并生成补丁。SWE-bench Lite(300 题)和 SWE-bench Verified(500 题,人工验证)是最常用的子集。
-
SWE-bench 的多模态扩展,任务描述中包含截图、UI 渲染等视觉信息,评估 agent 处理多模态工程任务的能力。
-
OpenAI 提出的函数级代码生成 benchmark(164 题),通过测试用例验证正确性。HumanEval+ 大幅扩充了测试用例,减少假阳性。虽然粒度较小,但仍是代码生成能力的基础参考。
-
把模型放进贴近真实使用的问题场景里做比较。适合作为模型选型、任务观察和案例拆解入口。(主页面在 websites.md 的 Benchmark 与模型选型入口部分)
- 环境一致性:SWE-bench 等仓库级 benchmark 对环境依赖敏感,复现时需注意 Docker 镜像版本和依赖锁定
- 指标理解:pass@1 与 resolve rate 含义不同,比较时需统一口径
- 数据污染:部分 benchmark 的测试题可能已进入模型训练数据,关注是否使用了 contamination-free 子集
- 更多 repo-level benchmark(如 CrossCodeEval、RepoEval)
- 代码修复与编辑专项 benchmark
- benchmark 对比维度表
- 适合实验室复现的优先级建议