본문 바로가기
반응형

웹크롤링 with Python3

[웹크롤링 with Python] 페이지에서 원하는 정보들 추출하기 / GlobalFirePower 사이트 정보 추출해보기 이번에는 지난 번에 알아본 정보들을 바탕으로 페이지 내에 있는 특정 정보들에 대해서 크롤링하고 데이터프레임으로 정리해보는 시간을 가져보도록 하겠습니다.  오늘 크롤링을 해 볼 사이트는  GlobalFirePower 입니다.해당 사이트는 2006년부터 매년 본인들의 기준으로 세계 각국의 군사력 지수를 산정하여 발표하는 사이트인데요 최근에는 군사력지수 뿐만 아니라 이를 계산할때 사용했던 제반적인 정보들까지 제공하기에 여러 유용한 정보들이 국가별로 잘 정리되어있다고 볼 수 있겠습니다.  이번에 크롤링 해볼 페이지는 아래와 같습니다. https://www.globalfirepower.com/countries-listing.php 2024 Military Strength RankingRanking the nati.. 2024. 6. 15.
[웹크롤링 with Python] 동적크롤링 / 네이버뉴스 썸네일 다운로드 이번에는 간단한 동적 웹크롤링을 알아보도록 하겠습니다. 동적 웹크롤링을 하는 대상은 네이버 뉴스 기사의 썸네일(Thumbnail) 입니다.  먼저, 동적 크롤링을 위해 selenium내 필요한 라이브러리들을 불러와주고 크롬 드라이버를 활용해 naver의 주소에 들어가게 해줍니다.from selenium import webdriver #셀레니움 웹드라이버 제어 모듈from selenium.webdriver.common.by import By #HTML 인덱싱을 위한 클래스import time #시간 지연을 위한 모듈#크롬 드라이버 실행driver = webdriver.Chrome()#크롬 드라이버에 url 입력 및 페이지 이동driver.get('https://news.naver.com/')time.sl.. 2024. 6. 13.
[웹크롤링 with Python] CNN 뉴스 기사 제목 및 본문 크롤링 웹 크롤링을 통해 CNN 뉴스 기사를 크롤링하는 방법에 대해서 알아보겠습니다.  이번 예제는 단일적인 페이지의 제목(Title)과 본문(Article Text)을 크롤링하는 코드를 소개하고자 합니다. 연습을 위해 크롤링하고자하는 페이지는 아래와 같습니다.(CNN 검색을 했을때 가장 첫번째 보이는 아무 페이지나 선택했습니다)https://edition.cnn.com/2024/06/08/middleeast/four-israeli-hostages-freed-gaza-intl/index.html 제목은 다음과 같습니다. 본문 내용의 일부는 아래와 같습니다.    크롤링을 위해 requests 와 BeatufiulSoup를 활용하겠습니다.  requests는 웹페이지를 요청하기 위해 BeautifulSoup는 h.. 2024. 6. 12.
반응형