对于SFT训练,除了可以看他的mean_token_accuracy是否稳定0.9左右,怎么判断是否训练好了,能否进行强化学习了,是否需要通过pass@k这种形式进行进一步的测验呢,想请教下作者当时是如何评估的