티스토리 뷰
오늘 다룰 내용
1. 크롤링을 위한 기본 모듈 및 라이브러리 소개
2. 사이트 접속하기
3. 원하는 데이터 추출하기
오늘 배울 개념
1. HTML 태그와 속성
2. 웹브라우저에서 '개발자 창' 띄우기
2. 세션(Seesion)의 의미
오늘 크롤링해볼 기사는
STEP 1
데이터 크롤링을 위해서 아래와 같이 request 모듈 BeautifulSoup 패키지 등을 불러온다.
import requests
from bs4 import BeautifulSoup
- request = python에서 HTTP요청을 서버로 보내고(request) 그 대답(respnse)을 객체로 받아올 수 있는 모듈
- BeautifulSoup : HTML문서 또는 XML문서에서 특정 내용을 선택하기 위해 사용하는 python 패키지
STEP 2
세션을 만든다.
session = requests.session()
- 세션이란, 넓은 의미로 우리가 어떤 '서버에 연결되어있는 동안'를 의미한다.
STEP 3
서버에 요청 및 응답확인 => Get 방식
url = "https://www.yna.co.kr/view/AKR20200601083400002?section=economy/all"
#get방식을 통해 서버에 데이터 요청
response = session.get(url)
# 정상적으로 데이터를 받았는지 확인: <Response [200]> 이면 정상!
print(response)
STEP 4
요청된 서버의 내용을
BeautifulSoup을 통해 분석 가능한 객체( 여기서는 'soup' )로 만든다.
soup = BeautifulSoup(response.text,'html.parser')
STEP 5
필요한 데이터의 HTML태그와 속성을 살펴본다.
- 여기서 보라색 글자(h1)인 것이 Tag이고,
- class = "tit" 이라고 적힌것이 속성이다.
STEP 6
태그와 속성을 활용하여 제목을 불러와 제목의 text만 불러온다.
title = soup.select_one("h1.tit").text
print(title)
# 로또 1등 48억원 주인 나타나지 않아…미수령시 국고로
끝.
참고싸이트
https://blog.naver.com/studyseony/222675450238
728x90
'IT > IT 이것 저것' 카테고리의 다른 글
(python)크롤링 - 30초만에 구글 사진 크롤링 하기 + python에서 검색어 입력해서 검색 (0) | 2020.06.02 |
---|---|
(python)크롤링 - 30초만에 구글 사진 크롤링 하기 (0) | 2020.06.02 |
Java Script기초 - 변수 선언 var /const/ let 차이점 (0) | 2020.05.25 |
컴퓨터는 어떻게 작동할까?(3) - CPU, 메모리, 입력, 출력 (0) | 2020.04.10 |
컴퓨터는 어떻게 작동할까?(2) - 컴퓨터의 언어 "2진수" (0) | 2020.04.06 |
250x250
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 사진크롤링
- 파이썬
- C#
- ET5X
- 알고리즘
- IT기초
- 심리학
- 경영학
- Unity
- 스타트업
- 크롤링
- 마케팅
- 프로그래머스
- It
- 주식투자
- 유니티
- 머신러닝
- 주식
- 가격데이터
- 랜덤맵
- Anet
- PYTHON
- 시스템투자
- beautifulsoup
- 터틀트레이딩
- requests
- json
- 일자별
- 비전공자
- 강화학습
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
글 보관함