본문 바로가기
반응형

업무자동화 with Python6

[업무자동화 with Python] PDF문서내용 추출(PDFPlumber 활용) (2) (표 추출) 지난 시간에는 PDFPlumber를 활용해서 pdf 파일 내의 이미지에 대해서 추출해보았는데요. 이번에는 pdf파일내의 표(Table)을 추출해보도록 하겠습니다 PDFPlumber에 대한 전반적인 내용은 지난 포스팅을 참조해주시면 되겠습니다.[업무자동화 with Python] PDF문서내용 추출(PDFPlumber 활용) (1)  **아래 작성되는 코드는 결과의 재현성을 위해 구글 코랩 무료버전을 활용해서 작성했습니다.**   1. PDFPlumber를 활용한 표(Table) 추출 - 먼저, 실습에 활용할 데이터를 다운로드 받아주겠습니다.   * 이번에 활용할 데이터는 PDFPlumber에서 예재로 제공하는 ca-warn-report 로 아래 그림과 같습니다.* 해당 pdf 파일은 여러 page로 구성되.. 2024. 10. 20.
[업무자동화 with Python] PDF문서내용 추출(PDFPlumber 활용) (1) (그림 추출) 업무간, PDF로 보내온 대량의 문서의 내용을 정리해야할 때 많은 스트레스를 받아본 경험이 있으실 겁니다. 저는 이러한 상황에서, 웹사이트에서 제공해주는 무료 PDF to excel 변환기나, ChatGPT등 생성형 AI로 이를 처리하려고 했을때 내가 원하는 형태의 정보로 가공되지 않았던 경험이 종종 있었는데요. 그래서 위와 같은 사이트들의 근간이 되는 알고리즘에 대해서 확인해보자는 마음으로 PDF 문서내용을 추출하는 Python library에 대해서 알아보았습니다. 이번에 활용할 Library는 PDFPlumber입니다. https://github.com/jsvine/pdfplumber GitHub - jsvine/pdfplumber: Plumb a PDF for detailed information.. 2024. 10. 19.
반응형