GitHub - Larry-Wayn/MASeval: This project aims to research and construct a method for evaluating the coverage of a systematic multi-agent system (MAS) test, and to establish a test evaluation index system suitable for different application scenarios.

综合评估报告

v1

综合评估报告【I1 个体智能水平】推理可行性均值: 93.33% — Agent 输出有效推理链的比例推理覆盖质量均值: 81.44% — 推理对各选项的系统覆盖程度单体准确率: 86.00% — 单 Agent 独立回答的正确率

【I2 协作效率】协作增益: -8.00% — 多 Agent 相对单 Agent 的准确率变化答案层协调一致性: 80.33% — 三个 Agent 倾向答案的一致程度平均通信轮次: 1.4 — 每道题平均经历的推理轮次平均返工次数: 0.8 — Validator 触发修正的平均次数

【I3 系统稳定性】选项扰动准确率退化: +0.00% — 打乱选项顺序后的性能损失（position bias）重复运行一致率: 93.33% — 同题多次运行答案的稳定程度

【I4 任务完成度】多体任务准确率: 78.00% — 最终答案正确率答案提取率: 88.00% — 可解析为合法答案的比例答案确定性: 0.00% — 给出唯一明确答案的比例

v2

【I1 个体智能水平】推理可行性均值: 94.00% — Agent 输出有效推理链的比例推理覆盖质量均值: 86.24% — 推理对各选项的系统覆盖程度单体准确率: 86.00% — 单 Agent 独立回答的正确率

【I2 协作效率】协作增益: -8.00% — 多 Agent 相对单 Agent 的准确率变化答案层协调一致性: 79.00% — 三个 Agent 倾向答案的一致程度平均通信轮次: 1.5 — 每道题平均经历的推理轮次平均返工次数: 0.9 — Validator 触发修正的平均次数

【I3 系统稳定性】选项扰动准确率退化: +2.00% — 打乱选项顺序后的性能损失（position bias）重复运行一致率: 93.33% — 同题多次运行答案的稳定程度

【I4 任务完成度】多体任务准确率: 78.00% — 最终答案正确率答案提取率: 94.00% — 可解析为合法答案的比例答案确定性: 0.00% — 给出唯一明确答案的比例

v3

【I1 个体智能水平】推理可行性均值（v2）: 70.80% — 强推理词×2 + 选项关联验证，防虚高推理覆盖质量均值（v2）:62.80% — 选项文本语义匹配 + 排除词语境共现单体准确率: 84.00% — 单 Agent 独立回答的正确率

【I2 协作效率】原始协作增益: +0.00% — 多体 vs 纯单体（含上下文信息量）上下文增益: -2.00% — 有 Analyst 上下文的单体 vs 纯单体纯协作增益: +2.00% — 排除信息量后，协作机制本身的贡献流水线一致性: 94.67% Cohen's κ = 0.025 平均通信轮次: 1.2 估算 token: 679 返工: 0.3

【I3 系统稳定性】多排列平均退化: -0.67% — 基于 3 种选项排列的均值退化答案翻转率: 100.00% — 排列变化时答案不稳定的题目比例 RStd（位置偏好）: 0.0119 — 越高说明 position bias 越强稳定性均值: 96.00% pass@1: 0.86 CI宽度: 0.4755

【I4 任务完成度】多体任务准确率: 84.00% 严格/标准/兜底/失败格式率: 0.00% / 0.00% / 100.00% / 0.00% 明确/模糊/不确定率: 0.00% / 0.00% / 0.00%

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
autoGen_version		autoGen_version
doc		doc
langGragh_version		langGragh_version
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

综合评估报告

v1

v2

v3

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

综合评估报告

v1

v2

v3

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages