이번에는 OCR을 파이썬으로 수행하는 방법에 대해서 알아보겠습니다.
재현성을 위해 코드는 코랩에서 실행하였습니다.
1. 파이썬을 활용한 OCR
- 이번 실습을 위해 사용할 라이브러리는 pytesseract입니다.
- 다양하고 보다 심도 있는 사용법을 위해서는 아래 github를 참조하시면 되겠습니다.
https://github.com/madmaze/pytesseract
GitHub - madmaze/pytesseract: A Python wrapper for Google Tesseract
A Python wrapper for Google Tesseract. Contribute to madmaze/pytesseract development by creating an account on GitHub.
github.com
- 이번에 활용할 데이터는 인터넷에 공개된 영수증 중 하나입니다. 모습은 아래와 같습니다.
- 먼저 다음과 같은 라이브러리들을 설치해줍니다.
- 설치가 완료되면 이제 이미지를 열어주고 OCR을 진행해주면 됩니다.
- OCR을 위해서는 보다 선명한 이미지가 더 유리하고, 이를 위해서 간단한 Image 전처리를 해주겠습니다.
해당 이미지를 Gray scale로 바꿔준 뒤 대비 강화를 해주니 조금 더 선명해 보입니다.
- 이제 OCR을 진행해줍니다.
결과는 아래와 같습니다. 글자는 잘 추출된 것 같고 특수 기호 같은 것들은 이상하게 출력된 것을 알 수 있습니다.
- 이제 도출된 결과를 기반으로, 표로 깔끔하게 정리해보겠습니다. 정규표현식을 사용해서 문자와 공백으로 이루어진 Description 부분과 그 뒤에오는 숫자를 Price로 인식하게 하였습니다. 그리고 Description이라는 항목과 Price라는 항목으로 데이터의 열을 만든 뒤 이에 맞게 데이터를 정렬하여 넣어보겠습니다.
- 다음과 같이 괜찮은 결과를 얻어 낼 수 있습니다.
'업무자동화 with Python' 카테고리의 다른 글
[업무자동화 with Python] EasyOCR을 활용한 OCR해보기 (0) | 2025.03.01 |
---|---|
[업무자동화 with Python] PDF Plumber로 PDF 표 추출하기 (실습) (1) | 2024.12.08 |
[업무자동화 with Python] PDF문서내용 추출(PDFPlumber 활용) (4) (표 추출) (1) | 2024.10.22 |
[업무자동화 with Python] PDF문서내용 추출(PDFPlumber 활용) (3) (표 추출) (0) | 2024.10.21 |
[업무자동화 with Python] PDF문서내용 추출(PDFPlumber 활용) (2) (표 추출) (2) | 2024.10.20 |
댓글