반응형 분류 전체보기167 [업무자동화 with Python] PDF문서내용 추출(PDFPlumber 활용) (2) (표 추출) 지난 시간에는 PDFPlumber를 활용해서 pdf 파일 내의 이미지에 대해서 추출해보았는데요. 이번에는 pdf파일내의 표(Table)을 추출해보도록 하겠습니다 PDFPlumber에 대한 전반적인 내용은 지난 포스팅을 참조해주시면 되겠습니다.[업무자동화 with Python] PDF문서내용 추출(PDFPlumber 활용) (1) **아래 작성되는 코드는 결과의 재현성을 위해 구글 코랩 무료버전을 활용해서 작성했습니다.** 1. PDFPlumber를 활용한 표(Table) 추출 - 먼저, 실습에 활용할 데이터를 다운로드 받아주겠습니다. * 이번에 활용할 데이터는 PDFPlumber에서 예재로 제공하는 ca-warn-report 로 아래 그림과 같습니다.* 해당 pdf 파일은 여러 page로 구성되.. 2024. 10. 20. [업무자동화 with Python] PDF문서내용 추출(PDFPlumber 활용) (1) (그림 추출) 업무간, PDF로 보내온 대량의 문서의 내용을 정리해야할 때 많은 스트레스를 받아본 경험이 있으실 겁니다. 저는 이러한 상황에서, 웹사이트에서 제공해주는 무료 PDF to excel 변환기나, ChatGPT등 생성형 AI로 이를 처리하려고 했을때 내가 원하는 형태의 정보로 가공되지 않았던 경험이 종종 있었는데요. 그래서 위와 같은 사이트들의 근간이 되는 알고리즘에 대해서 확인해보자는 마음으로 PDF 문서내용을 추출하는 Python library에 대해서 알아보았습니다. 이번에 활용할 Library는 PDFPlumber입니다. https://github.com/jsvine/pdfplumber GitHub - jsvine/pdfplumber: Plumb a PDF for detailed information.. 2024. 10. 19. [딥러닝 with Python] TSFEL(Time Series Feature Extraction Library) / 시계열 특징 추출 라이브러리 이번에 알아볼 것은 시계열 데이터 처리간, 시계열 데이터의 전역적인 특징을 추출하는 라이브러리인 TSFEL (Time Series Feature Extraction Library)에 대해서 알아보겠습니다. [출처 : https://tsfel.readthedocs.io/en/latest/index.html] 1. TSFEL - Time Series Feature Extraction Library는 효율적이고 간편하게 시계열 데이터의 전역적인 특징을 추출해주는 라이브러리 입니다. - 이때 Statistical / Temporal / Spectral / Fractal domain으로 나누어서 추출이 가능하며 각 도메인별 포함된 특징들을 더하면, 즉 전체 추출가능한 특징은 총 65개 입니다. * 해당 특징들의 .. 2024. 10. 18. [개념정리] Gated Network(Gating Mechanism) 이번에 알아볼 내용은 Gated Network에 대한 개념정리입니다. 1. Gated Network- Gated Network는 게이트 메커니즘(Gating mechansim)을 활용하여 * 정보의 흐름을 제어하고, * 중요한 정보를 선택적으로 통과시키며 * 불필요한 정보를 차단하는 신경망 구조를 일컫습니다. - 이는 주로 시계열 데이터나 순차적 데이터에서 사용되며, 장기 의존성(long-term dependency)를 처리하거나, 입력 데이터의 특정 부분이 중요할 때 이를 강조하는데 활용됩니다. - Gated Network의 주요 구성요소는 당연하게도 게이트(Gate) 입니다. * 게이트(Gate)는 시그모이드 함수를 통해 입력 데이터를 0과 1 사이의 값으로 변환하고, 이를 곱셈 연산에 사용하여 어떤.. 2024. 10. 17. 이전 1 ··· 12 13 14 15 16 17 18 ··· 42 다음 반응형