[Python_파이썬] 웹 크롤링이 가능한지 확인하는방법.(200, 403)
웹 크롤링을 하기위해서는 그 웹사이트가 접근가능한 웹사이트인지 알아보아야 한다.
웹에 Acess 가능한지 알아보는 방법을 알아보아야 한다.
1) requests 라는 라이브러리를 입력해준다.
import requests # requests 는 라이브러리 이름이다. import 는 해당 라이브러리를 사용하겠다는 의미이다.
2) 원하는 웹사이트의 주소를 알아야 한다.
예를들어 , " http://www.daum.net/"
라는 웹사이트가 접근가능한지 알고싶다면 아래와 같은 코드를 작성해주면 된다.
res = requests.get("http://www.daum.net/") # http://www.daum.net/ 라는 는 웹사이트에 접근하기 위해 requests.get이라는 함수를 사용하였다.
print("응답코드 :", res.status_code) # 접근 가능여부를 확인하기 위해 res.code_status 라는 함수를 사용하였다.
터미널 창에 200 이라고 출력되면 정상적으로 접근이 가능한 웹사이트 이다.
만약에 접근불가라면 403 이라고 출력될것이다.
한가지 더
위의 print("응답코드: ", res.status_code) 대신 사용할수있는 코드는 아래와 같다.
if res.status_code == requests.codes.ok: # if 문을 사용하여, 만약 요청request가 정상이라면
print("정상입니다.") # 접근가능하다면 "정상입니다"를 출력하시오.
else:
print("문제가 생겼습니다. [에러코드", res.status_code, " ] " )# 접근불가하다면 "문제가 생겼습니다.[에러코드"403"] 가 출력된다.
접근불가를 확인하는 또다른 방법은 res.raise_for_status() 라는 함수를 사용하는것이다.
res = requests.get("http://a.tistory.com") #res 라는 변수에 접근가능한지 원하는 주소를 넣어준다.
res.raise_for_status() # res변수에 대한접근가능상태를 raise_for_status() 라는 함수를 이용하여 확인해본다.
-끝-