综合评估报告 【I1 个体智能水平】 推理可行性均值: 93.33% — Agent 输出有效推理链的比例 推理覆盖质量均值: 81.44% — 推理对各选项的系统覆盖程度 单体准确率: 86.00% — 单 Agent 独立回答的正确率
【I2 协作效率】 协作增益: -8.00% — 多 Agent 相对单 Agent 的准确率变化 答案层协调一致性: 80.33% — 三个 Agent 倾向答案的一致程度 平均通信轮次: 1.4 — 每道题平均经历的推理轮次 平均返工次数: 0.8 — Validator 触发修正的平均次数
【I3 系统稳定性】 选项扰动准确率退化: +0.00% — 打乱选项顺序后的性能损失(position bias) 重复运行一致率: 93.33% — 同题多次运行答案的稳定程度
【I4 任务完成度】 多体任务准确率: 78.00% — 最终答案正确率 答案提取率: 88.00% — 可解析为合法答案的比例 答案确定性: 0.00% — 给出唯一明确答案的比例
【I1 个体智能水平】 推理可行性均值: 94.00% — Agent 输出有效推理链的比例 推理覆盖质量均值: 86.24% — 推理对各选项的系统覆盖程度 单体准确率: 86.00% — 单 Agent 独立回答的正确率
【I2 协作效率】 协作增益: -8.00% — 多 Agent 相对单 Agent 的准确率变化 答案层协调一致性: 79.00% — 三个 Agent 倾向答案的一致程度 平均通信轮次: 1.5 — 每道题平均经历的推理轮次 平均返工次数: 0.9 — Validator 触发修正的平均次数
【I3 系统稳定性】 选项扰动准确率退化: +2.00% — 打乱选项顺序后的性能损失(position bias) 重复运行一致率: 93.33% — 同题多次运行答案的稳定程度
【I4 任务完成度】 多体任务准确率: 78.00% — 最终答案正确率 答案提取率: 94.00% — 可解析为合法答案的比例 答案确定性: 0.00% — 给出唯一明确答案的比例
【I1 个体智能水平】 推理可行性均值(v2): 70.80% — 强推理词×2 + 选项关联验证,防虚高 推理覆盖质量均值(v2):62.80% — 选项文本语义匹配 + 排除词语境共现 单体准确率: 84.00% — 单 Agent 独立回答的正确率
【I2 协作效率】 原始协作增益: +0.00% — 多体 vs 纯单体(含上下文信息量) 上下文增益: -2.00% — 有 Analyst 上下文的单体 vs 纯单体 纯协作增益: +2.00% — 排除信息量后,协作机制本身的贡献 流水线一致性: 94.67% Cohen's κ = 0.025 平均通信轮次: 1.2 估算 token: 679 返工: 0.3
【I3 系统稳定性】 多排列平均退化: -0.67% — 基于 3 种选项排列的均值退化 答案翻转率: 100.00% — 排列变化时答案不稳定的题目比例 RStd(位置偏好): 0.0119 — 越高说明 position bias 越强 稳定性均值: 96.00% pass@1: 0.86 CI宽度: 0.4755
【I4 任务完成度】 多体任务准确率: 84.00% 严格/标准/兜底/失败格式率: 0.00% / 0.00% / 100.00% / 0.00% 明确/模糊/不确定率: 0.00% / 0.00% / 0.00%