본문 바로가기
반응형

웹크롤링 with Python4

[웹크롤링 with Python] 멜론차트 데이터 가져오기 이번 시간에는 간단한 코드 몇 줄만을 가지고 멜론차트 데이터를 가져오는 실습을 해보겠습니다. 실습은 재현성을 위해 코랩 무료버전에서 진행했으며, 이번 실습간에는 별다른 패키지 없이 코랩에 내장된 패키지들을 그대로 활용하기에 정말 쉽고 간단합니다.  1. 웹크롤링을 통해 멜론차트 데이터 가져오기 - 멜론차트와 같은 표(Table)의 형태로 되어있는 웹페이지를 발견하시면 아래와 같은 방법으로 쉽게 데이터를 크롤링 하실 수 있습니다. - 먼저, 데이터를 얻고 싶은 사이트를 들어가줍니다. 이번 실습간에는 멜론차트를 활용해보겠습니다. https://www.melon.com/chart/index.htm Melon음악이 필요한 순간, 멜론www.melon.com  * 해당 페이지는 24년 10월 16일 13시를 기준.. 2024. 10. 23.
[웹크롤링 with Python] 페이지에서 원하는 정보들 추출하기 / GlobalFirePower 사이트 정보 추출해보기 이번에는 지난 번에 알아본 정보들을 바탕으로 페이지 내에 있는 특정 정보들에 대해서 크롤링하고 데이터프레임으로 정리해보는 시간을 가져보도록 하겠습니다.  오늘 크롤링을 해 볼 사이트는  GlobalFirePower 입니다.해당 사이트는 2006년부터 매년 본인들의 기준으로 세계 각국의 군사력 지수를 산정하여 발표하는 사이트인데요 최근에는 군사력지수 뿐만 아니라 이를 계산할때 사용했던 제반적인 정보들까지 제공하기에 여러 유용한 정보들이 국가별로 잘 정리되어있다고 볼 수 있겠습니다.  이번에 크롤링 해볼 페이지는 아래와 같습니다. https://www.globalfirepower.com/countries-listing.php 2024 Military Strength RankingRanking the nati.. 2024. 6. 15.
[웹크롤링 with Python] 동적크롤링 / 네이버뉴스 썸네일 다운로드 이번에는 간단한 동적 웹크롤링을 알아보도록 하겠습니다. 동적 웹크롤링을 하는 대상은 네이버 뉴스 기사의 썸네일(Thumbnail) 입니다.  먼저, 동적 크롤링을 위해 selenium내 필요한 라이브러리들을 불러와주고 크롬 드라이버를 활용해 naver의 주소에 들어가게 해줍니다.from selenium import webdriver #셀레니움 웹드라이버 제어 모듈from selenium.webdriver.common.by import By #HTML 인덱싱을 위한 클래스import time #시간 지연을 위한 모듈#크롬 드라이버 실행driver = webdriver.Chrome()#크롬 드라이버에 url 입력 및 페이지 이동driver.get('https://news.naver.com/')time.sl.. 2024. 6. 13.
[웹크롤링 with Python] CNN 뉴스 기사 제목 및 본문 크롤링 웹 크롤링을 통해 CNN 뉴스 기사를 크롤링하는 방법에 대해서 알아보겠습니다.  이번 예제는 단일적인 페이지의 제목(Title)과 본문(Article Text)을 크롤링하는 코드를 소개하고자 합니다. 연습을 위해 크롤링하고자하는 페이지는 아래와 같습니다.(CNN 검색을 했을때 가장 첫번째 보이는 아무 페이지나 선택했습니다)https://edition.cnn.com/2024/06/08/middleeast/four-israeli-hostages-freed-gaza-intl/index.html 제목은 다음과 같습니다. 본문 내용의 일부는 아래와 같습니다.    크롤링을 위해 requests 와 BeatufiulSoup를 활용하겠습니다.  requests는 웹페이지를 요청하기 위해 BeautifulSoup는 h.. 2024. 6. 12.
반응형