현황
- PublicHealthQA (77 corpus) S0~S8 ablation: 65분 소요
- S7 Auto+Embed: embedding 호출 77회 + relation detection O(n²)
- S8 LLM Full: LLM classify 75회 개별 호출 (27B BF16, ~50초/건)
- 13종 전체 × 9단계 = 비현실적 실행 시간
병목 분석
- S7 Embedding: 문서별 Ollama embedding 호출 (각 ~0.5초) + relation_detector가 O(n²) 후보 검색
- S8 LLM classify: thinking 모델(Qwen3.5-27B)이 2048 토큰 thinking 후 응답 → 건당 50초
- S8 batch 분류: batch max_tokens가 thinking으로 폭증 (16개 batch → 32K 토큰)
TODO
단기 해결
# S0~S6만 빠르게 (5분)
uv run pytest tests/benchmark/test_ablation.py -v -s -k "not fiqa"
# S8 LLM은 소규모만
uv run pytest tests/benchmark/test_ablation.py -v -s -k "publichealthqa or xpqa"
🤖 Generated with Claude Code
현황
병목 분석
TODO
/no_think지원 서버 사용 시 자동 감지@pytest.mark.slow) → 선택적 실행단기 해결
🤖 Generated with Claude Code