티스토리 뷰

 

오늘 다룰 내용

 1. 크롤링을 위한 기본 모듈 및 라이브러리 소개

 2. 사이트 접속하기

 3. 원하는 데이터 추출하기

 

오늘 배울 개념

 1. HTML 태그와 속성

 2. 웹브라우저에서 '개발자 창' 띄우기

 2. 세션(Seesion)의 의미 

 

오늘 크롤링해볼 기사는

 

나 쥬ㅓ...

STEP 1

데이터 크롤링을 위해서 아래와 같이 request 모듈 BeautifulSoup 패키지 등을 불러온다.

import requests
from bs4 import BeautifulSoup

 

  • request = python에서 HTTP요청을 서버로 보내고(request) 그 대답(respnse)을 객체로 받아올 수 있는 모듈
  • BeautifulSoup : HTML문서 또는 XML문서에서 특정 내용을 선택하기 위해 사용하는 python 패키지

STEP 2

세션을 만든다.

session = requests.session()
  • 세션이란, 넓은 의미로 우리가 어떤 '서버에 연결되어있는 동안'를 의미한다.

STEP 3

서버에 요청 및 응답확인 => Get 방식

url = "https://www.yna.co.kr/view/AKR20200601083400002?section=economy/all"

#get방식을 통해 서버에 데이터 요청
response = session.get(url) 

# 정상적으로 데이터를 받았는지 확인: <Response [200]> 이면 정상!
print(response)

STEP 4

요청된 서버의 내용을 

BeautifulSoup을 통해 분석 가능한 객체( 여기서는 'soup' )로 만든다.

soup = BeautifulSoup(response.text,'html.parser')

 

STEP 5

필요한 데이터의 HTML태그와 속성을 살펴본다.

F12를 누르면 오른쪽과 같이 '개발자 도구' 창을 띄울 수 있다. --> Elements 탭으로 가자
개발자 도구에서 inspect 기능을 켜고 --> 제목을 클릭해본다
개발자 도구에서 선택한 제목의 태그(tag)와 속성을 확인 할 수 있다.

  • 여기서 보라색 글자(h1)인 것이 Tag이고,
  • class = "tit" 이라고 적힌것이 속성이다. 

STEP 6

태그와 속성을 활용하여 제목을 불러와 제목의 text만 불러온다.

title = soup.select_one("h1.tit").text
print(title)
# 로또 1등 48억원 주인 나타나지 않아…미수령시 국고로 

 

 

끝.


참고싸이트

 

https://blog.naver.com/studyseony/222675450238

 

#2 웹 크롤링 BeautifulSoup 라이브러리

BeautifulSoup 라이브러리 : 응답데이터를 파이썬 객체로 변환한 후에 원하는 데이터를 추출 · bs(변환할...

blog.naver.com

 

728x90
250x250
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/12   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
글 보관함