Skip to content

[refactor] HF 장소 추출 모델 Qwen 32B 전환 및 상호명 추출 프롬프트 개선 #12

@KyungminPark-steck

Description

@KyungminPark-steck

📂 리팩토링 대상

  • app/infra/llm/client.py
    • HF extraction system prompt
  • app/core/config.py
    • 기본 HF extraction model 설정
  • tests/test_hf_extraction_client.py
    • 프롬프트 regression 테스트

🎯 목적

Instagram caption에서 실제 상호명이 hashtag 또는 위치 라인에 포함된 경우, 일반 설명 문구(예: "경양식 돈까스집", "분식집", "빵집")가 store_name으로 추출되는 문제를 줄인다.

최근 live HF→Kakao 테스트에서 Qwen/Qwen2.5-Coder-32B-Instruct가 단일 장소, 다중 장소, hashtag/주소 기반 caption 모두에서 안정적으로 JSON extraction과 Kakao enrichment까지 성공했으므로 기본 모델을 해당 모델로 전환한다.

🔀 변경 방향

  • HF extraction 기본 모델을 Qwen/Qwen2.5-Coder-32B-Instruct로 변경한다.
  • 시스템 프롬프트에서 hashtag를 먼저 검사하도록 명시한다.
  • 📍지역 #상호명 다음 줄에 주소가 오는 패턴은 hashtag를 store_name으로 우선 추출하도록 강화한다.
  • generic category phrase보다 specific proper-noun hashtag를 우선하도록 지시한다.
  • 프롬프트 핵심 문구가 유지되도록 regression 테스트를 보강한다.

📊 영향 범위

  • Instagram caption → HF extraction → Kakao Local enrichment 경로에 영향이 있다.
  • DB schema/API response shape 변경은 없다.
  • HF Inference Provider에서 Qwen/Qwen2.5-Coder-32B-Instruct 사용 가능해야 한다.

✅ 완료 조건

  • 기본 HF extraction model이 Qwen/Qwen2.5-Coder-32B-Instruct로 설정된다.
  • 다중 빵집 caption에서 7개 장소가 모두 추출되고 Kakao selected place까지 매칭된다.
  • 기존 테스트 전체가 통과한다.

Metadata

Metadata

Assignees

No one assigned

    Labels

    refactor동작 변화 없는 구조 개선

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions