Skip to content

[feat](ai): add accuracy debug skill for nightly test#607

Open
PerryZhang01 wants to merge 1 commit intomainfrom
accuracy
Open

[feat](ai): add accuracy debug skill for nightly test#607
PerryZhang01 wants to merge 1 commit intomainfrom
accuracy

Conversation

@PerryZhang01
Copy link
Copy Markdown
Contributor

@PerryZhang01 PerryZhang01 commented Apr 19, 2026

Motivation

该PR为精度问题定位skill,搭配每日nightly accuracy test (https://rocm.github.io/ATOM/benchmark-dashboard/#tab=accuracy) 使用。当模型出现精度问题时,修改md文件的config即可使用:

  • image: 当天nightly test生成的镜像
  • commit: 当日镜像里使用的错误的atom aiter commit,以及前一天正确的atom aiter commit (错误既可能在atom,也可能在aiter)
  • framework:ATOM或者vLLM-ATOM或SGLang-ATOM,不同的框架的执行脚本不同
  • model:给出出错模型的名字和你本地机器的模型路径

给出命令:请按照accuracy_debug.md文档描述帮我定位精度问题,然后该skill就会使用二分法去逐个定位出错的commit。

缺点:
-时间太慢,每次执行一轮测试都需要重新编译aiter,定位一次需要几小时时间;
-自动化程度不高,仍然需要手动设置一些config;
-需要依赖claud code使用,cursor每次切换commit都需要手工点击run;

待优化:
-优化ATOM的commit变动时不重新pull aiter,优化aiter 切commit时增量编译,减少从头jit编译时间;
-直接与dashboard 页面结合,自动根据页面去配置config,在每日dashboard刷新后自动检测出错模型,定位出错commit。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

2 participants