import urllib.robotparser
import requests
import time
'''
使用robots.txt
'''
urls = ['http://www.baidu.com', 'http://www.jingdong.com']
# RobotFileParser():可以方便的判断哪些页面可以抓取,哪些页面不可以抓取
# urllib.robotparser.RobotFileParser(url=''),申明是也可以不传入url,用set_url()设置。
rp = urllib.robotparser.RobotFileParser()
# set_url():设置robots.txt文件的链接
rp.set_url('https://www.baidu.com/robots.txt')
# read():读取robots.txt文件并进行分析,该方法不会返回结果,但对文件进行了读取操作,
# 这一步必须调用,如果不调用,则接下来的判断均为False
rp.read()
# can_fetch()方法的第一个参数代表UA,第二个参数为要检验的网址。
# 返回值为布尔值,代表robots.txt是否允许此UA访问此网址
print(rp.can_fetch('Googlebot', 'https://www.baidu.com/baidu'))
print(rp.can_fetch('Baiduspider', 'https://www.baidu.com/cpro'))
# num_retries表示重新请求的次数,也作为请求次数的计数器
def get_data(url, num_retries=3):
try:
# 若请求时长超过timeout的时长,程序直接抛出超时异常,然后被异常处理机制捕捉到
data = requests.get(url, timeout=5)
print(data.status_code)
except requests.exceptions.ConnectionError as e:
print('请求错误, url: ', url)
print('错误详情: ', e)
data = None
except:
print('未知错误! url:', url)
data = None
if (data != None) and (500 <= data.status_code <=599):
# 递归get_data()方法
if num_retries > 0:
print('服务器错误,正在重试...')
time.sleep(1)
num_retries -= 1
get_data(url, num_retries)
return data
# 要想让爬虫自动遵守robots.txt,代码如下:
def robots_check(robots_txt_url, headers, url):
rp = urllib.robotparser.RobotFileParser()
rp.set_url(robots_txt_url)
rp.read()
result = rp.can_fetch(headers['User-Agent'], url)
return result
for url in urls:
if robots_check(robots_txt_url, headers, url):
data = get_data(url)