## 学习内容 - 1.阅读有关agentbench和toolbench相关论文 - 2.尝试下载有关代码 - 3.利用大模型简单生成材料测评的代码并运行 ## 问题 - 1.没办法利用先前的测评框架agentbench和toolbench,是不是接下来通过文章了解它们的测评维度?那有没有渠道可以自己使用? - 2.自己编写测评材料的代码,测评问题有没有范围和方向? ## 下一阶段目标 - 1.尝试导入不同大模型到代码中检验准确度 - 2.阅读相关文章,确定测评主要方向