Document_Classifier

인공지능을 이용한 문서 분류

TODO BEFORE EXECUTE

No module name cv2 -> pip install opencv-python

pip install torch pip install torchvision pip install pyterssseract

brew install popper

and edit for Mac popper

poppler and pytesseract 라이브러리로 바꿔야함

brew install tesseract

export TESSDATA_PREFIX=/Users/donghee/Library/Homebrew/share/tessdata

반복적으로 분류할 필요가 있는 문서의 표지를 학습시킨 모델을 기반으로 문서를 표지와 내용으로 분류하고, 표지 단위로 문서를 나누어 저장합니다. 또한 표지의 제목에 해당하는 문자열을 OCR로 읽어 원하는 문서들을 따로 분류할 수 있습니다.

PDF 문서 묶음을 장 단위로 분리하여 IMG/IMG 폴더에 jpg 파일로 저장합니다.
스캔 등으로 인하여 기울어진 이미지를 보정합니다.
보정이 끝난 이미지들을 모델을 통해 분류하고, 사용자에게 보여줍니다. 이 때 사용자는 올바르게 분류되지 않은 이미지를 클릭하여 분류를 바꿀 수 있습니다(이미지는 블러처리 하였습니다).

5-1. 예를 클릭할 시 탐색할 문자열을 입력 받습니다.

5-2. 표지 이미지에 대해 제목 부분을 자르고, OCR로 읽기 쉽게 보정한 후 문자열을 읽습니다.

폴더에 분류하여 저장됩니다.

Name		Name	Last commit message	Last commit date
Latest commit History 109 Commits
.idea		.idea
GUI		GUI
Utils		Utils
__pycache__		__pycache__
modelData		modelData
.DS_Store		.DS_Store
.gitignore		.gitignore
DetailResult.py		DetailResult.py
Document_Classifying.py		Document_Classifying.py
GPUmodelLoad1.py		GPUmodelLoad1.py
GUImain.py		GUImain.py
OCR.py		OCR.py
PdfToImage.py		PdfToImage.py
README.md		README.md
RESULT.py		RESULT.py
gradient.py		gradient.py
image_processing3.py		image_processing3.py
stepListener.py		stepListener.py