Skip to content

refactor: improve HF extraction model and hashtag prompt#13

Merged
1000hyehyang merged 4 commits into
devfrom
feat/12-qwen32b-extraction-prompt
May 3, 2026
Merged

refactor: improve HF extraction model and hashtag prompt#13
1000hyehyang merged 4 commits into
devfrom
feat/12-qwen32b-extraction-prompt

Conversation

@KyungminPark-steck
Copy link
Copy Markdown
Contributor

✨ 무엇을 바꿨나요?

HF 장소 추출 기본 모델을 Qwen/Qwen2.5-Coder-32B-Instruct로 변경하고, caption 안의 hashtag 상호명을 더 우선적으로 추출하도록 프롬프트를 보강했습니다.

🔗 관련 이슈
Closes #12

💡 왜 바꿨나요?

일부 caption에서 실제 상호명(#죽동식당) 대신 일반 설명 문구(경양식 돈까스집)가 store_name으로 추출되어 Kakao 매칭이 실패하는 문제가 있었습니다.
hashtag/위치 라인/주소 라인을 더 잘 해석하도록 프롬프트를 강화하고, live 테스트에서 더 안정적인 Qwen 32B 모델로 교체했습니다.

📝 주요 변경 사항

HF extraction 기본 모델을 Qwen/Qwen2.5-Coder-32B-Instruct로 변경
📍지역 #상호명 + 다음 줄 주소 패턴을 우선 추출하도록 프롬프트 개선
generic category phrase보다 proper-noun hashtag를 우선하도록 지시 추가
프롬프트/기본 모델 regression 테스트 추가

👀 리뷰어가 보면 좋은 부분

app/infra/llm/client.py의 system prompt 문구가 과하게 특정 케이스에 치우치지 않는지
Qwen/Qwen2.5-Coder-32B-Instruct를 기본 모델로 두는 것이 비용/속도 측면에서 괜찮은지
Kakao fallback 검색 흐름과 함께 봤을 때 추출 결과가 충분히 안정적인지

🧪 테스트

방식

Unit test: python -m pytest
Live HF→Kakao pipeline 검증
결과

58 passed, 1 skipped
live artifact: artifacts/hf_kakao_pipeline_three_captions_qwen_qwen2_5_coder_32b_instruct.json

@1000hyehyang 1000hyehyang merged commit c84ed20 into dev May 3, 2026
1 check passed
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

[refactor] HF 장소 추출 모델 Qwen 32B 전환 및 상호명 추출 프롬프트 개선

2 participants