본문 바로가기

PYTHON_파이썬

[Python_파이썬] 웹 크롤링이 가능한지 확인하는방법.(200, 403)

웹 크롤링을 하기위해서는 그 웹사이트가 접근가능한 웹사이트인지 알아보아야 한다.

 

웹에 Acess 가능한지 알아보는 방법을 알아보아야 한다.

 

1) requests 라는 라이브러리를 입력해준다.

 

import requests # requests 는 라이브러리 이름이다. import 는 해당 라이브러리를 사용하겠다는 의미이다.

 

2) 원하는 웹사이트의 주소를 알아야 한다.

예를들어 ,  " http://www.daum.net/"

라는 웹사이트가 접근가능한지 알고싶다면 아래와 같은 코드를 작성해주면 된다.

 

res = requests.get("http://www.daum.net/") # http://www.daum.net/ 라는 는 웹사이트에 접근하기 위해 requests.get이라는 함수를 사용하였다.

 

print("응답코드 :", res.status_code) # 접근 가능여부를 확인하기 위해 res.code_status 라는 함수를 사용하였다.

 

터미널 창에 200 이라고 출력되면 정상적으로 접근이 가능한 웹사이트 이다.

만약에 접근불가라면 403 이라고 출력될것이다.

 

한가지 더

위의 print("응답코드: ", res.status_code) 대신 사용할수있는 코드는 아래와 같다.

 

if res.status_code == requests.codes.ok: # if 문을 사용하여, 만약 요청request가 정상이라면

    print("정상입니다.") # 접근가능하다면 "정상입니다"를 출력하시오.

else:

    print("문제가 생겼습니다. [에러코드", res.status_code, " ] " )# 접근불가하다면 "문제가 생겼습니다.[에러코드"403"] 가 출력된다.

 

 

접근불가를 확인하는 또다른 방법은 res.raise_for_status() 라는 함수를 사용하는것이다.

res  = requests.get("http://a.tistory.com") #res 라는 변수에 접근가능한지 원하는 주소를 넣어준다.

res.raise_for_status() # res변수에 대한접근가능상태를 raise_for_status() 라는 함수를 이용하여 확인해본다.

 

-끝-