Skip to content

whehd16/Document_Classifier_MAC

Repository files navigation

Document_Classifier

인공지능을 이용한 문서 분류

TODO BEFORE EXECUTE

  1. Create Folder CROP, IMG, Improvement, PDF, RePDF, Result
  2. Input PDF file(s) which you want to classify in PDF folder
  3. Delete .DS files
  4. Run 프로젝트 import 관련

No module name cv2 -> pip install opencv-python

pip install torch pip install torchvision pip install pyterssseract

brew install popper

and edit for Mac popper

poppler and pytesseract 라이브러리로 바꿔야함

brew install tesseract

export TESSDATA_PREFIX=/Users/donghee/Library/Homebrew/share/tessdata

개요

반복적으로 분류할 필요가 있는 문서의 표지를 학습시킨 모델을 기반으로 문서를 표지와 내용으로 분류하고, 표지 단위로 문서를 나누어 저장합니다. 또한 표지의 제목에 해당하는 문자열을 OCR로 읽어 원하는 문서들을 따로 분류할 수 있습니다.

주요 기능

  1. PDF 문서 묶음을 장 단위로 분리하여 IMG/IMG 폴더에 jpg 파일로 저장합니다.

    PDFtoIMG
  2. 스캔 등으로 인하여 기울어진 이미지를 보정합니다.

    degree
  3. 보정이 끝난 이미지들을 모델을 통해 분류하고, 사용자에게 보여줍니다. 이 때 사용자는 올바르게 분류되지 않은 이미지를 클릭하여 분류를 바꿀 수 있습니다(이미지는 블러처리 하였습니다).

표지로 분류된 이미지들
Cover
내용으로 분류된 이미지들(오차가 작은 상위 10개의 이미지만 표시합니다)
Content
  1. 문자열 탐색을 실행할 것인지 묻습니다. 아니오를 클릭할 시 표지 단위로 문서를 분리하여 저장하고 6번으로 넘어갑니다.
    ask

5-1. 예를 클릭할 시 탐색할 문자열을 입력 받습니다.

keyword

5-2. 표지 이미지에 대해 제목 부분을 자르고, OCR로 읽기 쉽게 보정한 후 문자열을 읽습니다.

ocr
  1. Result 폴더에 분류된 결과대로 폴더를 생성하고 프로그램을 종료합니다.
    ocr

실행 결과

폴더에 분류하여 저장됩니다.

ocr

실행 전 설정

  • 프로젝트 폴더에 CROP, IMG, Improvement, PDF, RePDF, Result 라는 이름의 폴더를 생성합니다.

    folder_list
  • IMG 폴더 내에 다시 IMG 폴더를 생성합니다.

    IMG_in_IMG
  • 분류를 원하는 PDF 파일(들)을 PDF 폴더 내에 넣습니다.

    PDF_located
  • 실행합니다.

    RUN

About

Document_Classifier_MAC

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published