Python笔记----关于robots.txt

Python笔记----关于robots.txt
import urllib.robotparser
import requests
import time

'''
使用robots.txt
'''

urls = ['http://www.baidu.com', 'http://www.jingdong.com']

# RobotFileParser():可以方便的判断哪些页面可以抓取,哪些页面不可以抓取
# urllib.robotparser.RobotFileParser(url=''),申明是也可以不传入url,用set_url()设置。
rp = urllib.robotparser.RobotFileParser()
# set_url():设置robots.txt文件的链接
rp.set_url('https://www.baidu.com/robots.txt')

# read():读取robots.txt文件并进行分析,该方法不会返回结果,但对文件进行了读取操作,
# 这一步必须调用,如果不调用,则接下来的判断均为False
rp.read()

# can_fetch()方法的第一个参数代表UA,第二个参数为要检验的网址。
# 返回值为布尔值,代表robots.txt是否允许此UA访问此网址
print(rp.can_fetch('Googlebot', 'https://www.baidu.com/baidu'))
print(rp.can_fetch('Baiduspider', 'https://www.baidu.com/cpro'))


# num_retries表示重新请求的次数,也作为请求次数的计数器
def get_data(url, num_retries=3):
    try:
        # 若请求时长超过timeout的时长,程序直接抛出超时异常,然后被异常处理机制捕捉到
        data = requests.get(url, timeout=5)
        print(data.status_code)
    except requests.exceptions.ConnectionError as e:
        print('请求错误, url: ', url)
        print('错误详情: ', e)
        data = None
    except:
        print('未知错误! url:', url)
        data = None

    if (data != None) and (500 <= data.status_code <=599):
        # 递归get_data()方法
        if num_retries > 0:
            print('服务器错误,正在重试...')
            time.sleep(1)
            num_retries -= 1
            get_data(url, num_retries)
    return data


# 要想让爬虫自动遵守robots.txt,代码如下:
def robots_check(robots_txt_url, headers, url):
    rp = urllib.robotparser.RobotFileParser()
    rp.set_url(robots_txt_url)
    rp.read()
    result = rp.can_fetch(headers['User-Agent'], url)

    return result


for url in urls:
    if robots_check(robots_txt_url, headers, url):
        data = get_data(url)

Read more

深入理解 Proxy 和 Object.defineProperty

在JavaScript中,对象是一种核心的数据结构,而对对象的操作也是开发中经常遇到的任务。在这个过程中,我们经常会使用到两个重要的特性:Proxy和Object.defineProperty。这两者都允许我们在对象上进行拦截和自定义操作,但它们在实现方式、应用场景和灵活性等方面存在一些显著的区别。本文将深入比较Proxy和Object.defineProperty,包括它们的基本概念、使用示例以及适用场景,以帮助读者更好地理解和运用这两个特性。 1. Object.defineProperty 1.1 基本概念 Object.defineProperty 是 ECMAScript 5 引入的一个方法,用于直接在对象上定义新属性或修改已有属性。它的基本语法如下: javascript 代码解读复制代码Object.defineProperty(obj, prop, descriptor); 其中,obj是目标对象,prop是要定义或修改的属性名,descriptor是一个描述符对象,用于定义属性的特性。 1.2 使用示例 javascript 代码解读复制代码//

By Ne0inhk

Proxy 和 Object.defineProperty 的区别

Proxy 和 Object.defineProperty 是 JavaScript 中两个不同的特性,它们的作用也不完全相同。 Object.defineProperty 允许你在一个对象上定义一个新属性或者修改一个已有属性。通过这个方法你可以精确地定义属性的特征,比如它是否可写、可枚举、可配置等。该方法的使用场景通常是需要在一个对象上创建一个属性,然后控制这个属性的行为。 Proxy 也可以用来代理一个对象,但是相比于 Object.defineProperty,它提供了更加强大的功能。使用 Proxy 可以截获并重定义对象的基本操作,比如访问属性、赋值、函数调用等等。在这些操作被执行之前,可以通过拦截器函数对这些操作进行拦截和修改。因此,通过 Proxy,你可以完全重写一个对象的默认行为。该方法的使用场景通常是需要对一个对象的行为进行定制化,或者需要在对象上添加额外的功能。 对比 以下是 Proxy 和 Object.defineProperty 的一些区别对比: 方面ProxyObject.defineProperty语法使用 new Proxy(target,

By Ne0inhk