refactor: improve HF extraction model and hashtag prompt#13
Merged
Conversation
1000hyehyang
approved these changes
May 3, 2026
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Add this suggestion to a batch that can be applied as a single commit.This suggestion is invalid because no changes were made to the code.Suggestions cannot be applied while the pull request is closed.Suggestions cannot be applied while viewing a subset of changes.Only one suggestion per line can be applied in a batch.Add this suggestion to a batch that can be applied as a single commit.Applying suggestions on deleted lines is not supported.You must change the existing code in this line in order to create a valid suggestion.Outdated suggestions cannot be applied.This suggestion has been applied or marked resolved.Suggestions cannot be applied from pending reviews.Suggestions cannot be applied on multi-line comments.Suggestions cannot be applied while the pull request is queued to merge.Suggestion cannot be applied right now. Please check back later.
✨ 무엇을 바꿨나요?
HF 장소 추출 기본 모델을 Qwen/Qwen2.5-Coder-32B-Instruct로 변경하고, caption 안의 hashtag 상호명을 더 우선적으로 추출하도록 프롬프트를 보강했습니다.
🔗 관련 이슈
Closes #12
💡 왜 바꿨나요?
일부 caption에서 실제 상호명(#죽동식당) 대신 일반 설명 문구(경양식 돈까스집)가 store_name으로 추출되어 Kakao 매칭이 실패하는 문제가 있었습니다.
hashtag/위치 라인/주소 라인을 더 잘 해석하도록 프롬프트를 강화하고, live 테스트에서 더 안정적인 Qwen 32B 모델로 교체했습니다.
📝 주요 변경 사항
HF extraction 기본 모델을 Qwen/Qwen2.5-Coder-32B-Instruct로 변경
📍지역 #상호명 + 다음 줄 주소 패턴을 우선 추출하도록 프롬프트 개선
generic category phrase보다 proper-noun hashtag를 우선하도록 지시 추가
프롬프트/기본 모델 regression 테스트 추가
👀 리뷰어가 보면 좋은 부분
app/infra/llm/client.py의 system prompt 문구가 과하게 특정 케이스에 치우치지 않는지
Qwen/Qwen2.5-Coder-32B-Instruct를 기본 모델로 두는 것이 비용/속도 측면에서 괜찮은지
Kakao fallback 검색 흐름과 함께 봤을 때 추출 결과가 충분히 안정적인지
🧪 테스트
방식
Unit test: python -m pytest
Live HF→Kakao pipeline 검증
결과
58 passed, 1 skipped
live artifact: artifacts/hf_kakao_pipeline_three_captions_qwen_qwen2_5_coder_32b_instruct.json