60 lines (33 loc) · 2.57 KB

Benchmarks

本页用于整理 AI coding（Vibe Coding）/ Coding Agent 方向常见 benchmark、评测任务和实验参考资源，服务于实验设计与研究比较。

仓库级 Coding Agent Benchmark

SWE-bench

SWE-bench | GitHub | 论文

当前 Coding Agent 评测的事实标准。从真实 GitHub issue 出发，要求 agent 在完整仓库中定位问题并生成补丁。SWE-bench Lite（300 题）和 SWE-bench Verified（500 题，人工验证）是最常用的子集。

SWE-bench Multimodal

SWE-bench M | 论文

SWE-bench 的多模态扩展，任务描述中包含截图、UI 渲染等视觉信息，评估 agent 处理多模态工程任务的能力。

代码生成 Benchmark

HumanEval / HumanEval+

HumanEval | HumanEval+

OpenAI 提出的函数级代码生成 benchmark（164 题），通过测试用例验证正确性。HumanEval+ 大幅扩充了测试用例，减少假阳性。虽然粒度较小，但仍是代码生成能力的基础参考。

MBPP / MBPP+

MBPP | MBPP+

Google 提出的入门级 Python 编程 benchmark（974 题），与 HumanEval 互补，题目更简单但覆盖面更广。

端到端应用 Benchmark

Vibe Code Bench

论文

面向端到端 Web 应用开发的评测，评估模型从需求到完整应用的交付能力。（详见 papers.md）

真实场景评测

XSCT Bench

XSCT Bench

把模型放进贴近真实使用的问题场景里做比较。适合作为模型选型、任务观察和案例拆解入口。（主页面在 websites.md 的 Benchmark 与模型选型入口部分）

评测注意事项

环境一致性：SWE-bench 等仓库级 benchmark 对环境依赖敏感，复现时需注意 Docker 镜像版本和依赖锁定
指标理解：pass@1 与 resolve rate 含义不同，比较时需统一口径
数据污染：部分 benchmark 的测试题可能已进入模型训练数据，关注是否使用了 contamination-free 子集

后续可补充内容

更多 repo-level benchmark（如 CrossCodeEval、RepoEval）
代码修复与编辑专项 benchmark
benchmark 对比维度表
适合实验室复现的优先级建议