인공지능을 이용한 문서 분류
- Create Folder CROP, IMG, Improvement, PDF, RePDF, Result
- Input PDF file(s) which you want to classify in PDF folder
- Delete .DS files
- Run 프로젝트 import 관련
No module name cv2 -> pip install opencv-python
pip install torch pip install torchvision pip install pyterssseract
brew install popper
and edit for Mac popper
poppler and pytesseract 라이브러리로 바꿔야함
brew install tesseract
export TESSDATA_PREFIX=/Users/donghee/Library/Homebrew/share/tessdata
반복적으로 분류할 필요가 있는 문서의 표지를 학습시킨 모델을 기반으로 문서를 표지와 내용으로 분류하고, 표지 단위로 문서를 나누어 저장합니다. 또한 표지의 제목에 해당하는 문자열을 OCR로 읽어 원하는 문서들을 따로 분류할 수 있습니다.
-
PDF 문서 묶음을 장 단위로 분리하여 IMG/IMG 폴더에 jpg 파일로 저장합니다.
-
스캔 등으로 인하여 기울어진 이미지를 보정합니다.
-
보정이 끝난 이미지들을 모델을 통해 분류하고, 사용자에게 보여줍니다. 이 때 사용자는 올바르게 분류되지 않은 이미지를 클릭하여 분류를 바꿀 수 있습니다(이미지는 블러처리 하였습니다).
5-1. 예를 클릭할 시 탐색할 문자열을 입력 받습니다.
5-2. 표지 이미지에 대해 제목 부분을 자르고, OCR로 읽기 쉽게 보정한 후 문자열을 읽습니다.
폴더에 분류하여 저장됩니다.










