반응형 pdf표추출3 [업무자동화 with Python] PDF Plumber로 PDF 표 추출하기 (실습) 이번에는 실제 자료를 바탕으로 PDF Plumber의 활용성을 알아보겠습니다. 1. 실습 간 활용할 데이터 : 24년 네이버 반기 보고서 이번에 사용할 자료는 네이버의 2024년 반기 사업보고서 입니다. https://kind.krx.co.kr/common/disclsviewer.do?method=search&acptno=20240318001166 [NAVER] 사업보고서(일반법인)본 문서는 최종문서가 아니므로, 최종 정정문서를 반드시 확인하시기 바랍니다.kind.krx.co.kr 공개된 자료입니다. 위 데이터는 총 442페이지이며 수백개의 표로 구성되어있는 자료 입니다. 2. PDF Plumber를 통해서 표 추출하기 표 추출을 위해서 코랩에서 PDF Plumber를 활용해 보았습니다. [업무자.. 2024. 12. 8. [업무자동화 with Python] PDF문서내용 추출(PDFPlumber 활용) (4) (표 추출) 이번에는 지난 시간에 이어서 pdf에서 표를 추출하는 방법에 대해서 자세히 알아보겠습니다. [업무자동화 with Python] PDF문서내용 추출(PDFPlumber 활용) (3) (표 추출) 1. PDFPlumber로 표 추출하기- 이번에는 기존과는 좀 다른 데이터를 활용해보겠습니다. 기존에는 pdf에서 선으로 행과 열의 구분이 비교적 명확한 편이었다면 이번에는 선에 대한 표시가 잘 나와있지 않은 데이터를 활용해볼 건데요 - 해당 데이터는 san-jose-pd-firearm-sample 이라는 데이터입니다. https://github.com/jsvine/pdfplumber/blob/stable/examples/pdfs/san-jose-pd-firearm-sample.pdf pdfplumber/exam.. 2024. 10. 22. [업무자동화 with Python] PDF문서내용 추출(PDFPlumber 활용) (2) (표 추출) 지난 시간에는 PDFPlumber를 활용해서 pdf 파일 내의 이미지에 대해서 추출해보았는데요. 이번에는 pdf파일내의 표(Table)을 추출해보도록 하겠습니다 PDFPlumber에 대한 전반적인 내용은 지난 포스팅을 참조해주시면 되겠습니다.[업무자동화 with Python] PDF문서내용 추출(PDFPlumber 활용) (1) **아래 작성되는 코드는 결과의 재현성을 위해 구글 코랩 무료버전을 활용해서 작성했습니다.** 1. PDFPlumber를 활용한 표(Table) 추출 - 먼저, 실습에 활용할 데이터를 다운로드 받아주겠습니다. * 이번에 활용할 데이터는 PDFPlumber에서 예재로 제공하는 ca-warn-report 로 아래 그림과 같습니다.* 해당 pdf 파일은 여러 page로 구성되.. 2024. 10. 20. 이전 1 다음 반응형