반응형 업무자동화 with Python6 [업무자동화 with Python] PDF Plumber로 PDF 표 추출하기 (실습) 이번에는 실제 자료를 바탕으로 PDF Plumber의 활용성을 알아보겠습니다. 1. 실습 간 활용할 데이터 : 24년 네이버 반기 보고서 이번에 사용할 자료는 네이버의 2024년 반기 사업보고서 입니다. https://kind.krx.co.kr/common/disclsviewer.do?method=search&acptno=20240318001166 [NAVER] 사업보고서(일반법인)본 문서는 최종문서가 아니므로, 최종 정정문서를 반드시 확인하시기 바랍니다.kind.krx.co.kr 공개된 자료입니다. 위 데이터는 총 442페이지이며 수백개의 표로 구성되어있는 자료 입니다. 2. PDF Plumber를 통해서 표 추출하기 표 추출을 위해서 코랩에서 PDF Plumber를 활용해 보았습니다. [업무자.. 2024. 12. 8. [업무자동화 with Python] OCR (Optical Character Recognition) 이번에는 OCR을 파이썬으로 수행하는 방법에 대해서 알아보겠습니다. 재현성을 위해 코드는 코랩에서 실행하였습니다. 1. 파이썬을 활용한 OCR- 이번 실습을 위해 사용할 라이브러리는 pytesseract입니다. - 다양하고 보다 심도 있는 사용법을 위해서는 아래 github를 참조하시면 되겠습니다.https://github.com/madmaze/pytesseract GitHub - madmaze/pytesseract: A Python wrapper for Google TesseractA Python wrapper for Google Tesseract. Contribute to madmaze/pytesseract development by creating an account on GitHub.github... 2024. 11. 6. [업무자동화 with Python] PDF문서내용 추출(PDFPlumber 활용) (4) (표 추출) 이번에는 지난 시간에 이어서 pdf에서 표를 추출하는 방법에 대해서 자세히 알아보겠습니다. [업무자동화 with Python] PDF문서내용 추출(PDFPlumber 활용) (3) (표 추출) 1. PDFPlumber로 표 추출하기- 이번에는 기존과는 좀 다른 데이터를 활용해보겠습니다. 기존에는 pdf에서 선으로 행과 열의 구분이 비교적 명확한 편이었다면 이번에는 선에 대한 표시가 잘 나와있지 않은 데이터를 활용해볼 건데요 - 해당 데이터는 san-jose-pd-firearm-sample 이라는 데이터입니다. https://github.com/jsvine/pdfplumber/blob/stable/examples/pdfs/san-jose-pd-firearm-sample.pdf pdfplumber/exam.. 2024. 10. 22. [업무자동화 with Python] PDF문서내용 추출(PDFPlumber 활용) (3) (표 추출) 이번에는 지난 시간에 이어서 pdf plumber를 활용해 표 내용을 추출하는 방법에 대해서 알아보겠습니다. 지난 시간에는 표 내용을 추출하는 기본적인 방법에 대해서 알아보았다면, 이번에는 병합된 셀 부분들로 인해 행 또는 열 간 구분이 잘 안되는 상황에 대해, 보다 세분화해서 표를 추출하는 방법에 대해서 알아보겠습니다. [업무자동화 with Python] PDF문서내용 추출(PDFPlumber 활용) (2) (표 추출) * 재현의 용이성을 위해 코드는 구글 코랩 무료버전에서 실행하였습니다. 1. PDFPlumber를 활용한 표 추출- 이번 실습간에 활용할 데이터는 background-checks 이며, 아래 링크에서 다운로드 받으실 수 있습니다.https://github.com/jsvine/pdf.. 2024. 10. 21. 이전 1 2 다음 반응형