Python 爬虫实战：获取中国农药信息网登记数据

综述由AI生成如何使用 Python 爬虫技术抓取中国农药信息网的农药登记数据。通过 requests 库发送 POST 请求，配合 lxml 库解析 HTML 表格，最终将数据保存为 CSV 文件。文章详细分析了请求头设置、POST 参数构造、文件编码处理及 XPath 解析逻辑，并提供了完整的源代码和运行结果示例。同时强调了反爬虫策略应对、法律合规性及代码维护的注意事项，适合希望学习数据采集技术的开发者参考。

极客工坊发布于 2025/2/6更新于 2026/6/220 浏览

一、爬取目标

本文旨在通过 Python 编写爬虫程序，抓取中国农药信息网（ICAMA）的农药登记数据。该网站提供了详细的农药产品登记信息，包括登记证号、农药名称、类别、剂型、含量及有效期等关键数据。通过自动化脚本提取这些数据并保存为 CSV 文件，可方便地进行后续的数据分析或整理。

二、环境准备

在开始之前，请确保已安装以下 Python 库：

requests：用于发送 HTTP 请求。
lxml：用于解析 HTML 文档，支持 XPath 查询。
prettytable：用于在控制台美观地打印表格数据。
csv：Python 标准库，用于处理 CSV 文件读写。

安装命令如下：

pip install requests lxml prettytable

三、完整源码

以下是完整的 Python 脚本代码，包含请求发送、数据解析、结果打印及文件保存功能。

import csv
import requests
from lxml import etree
from prettytable import PrettyTable

def getData(baseUrl, data, headers):
    """
    发送 POST 请求并解析返回的 HTML 表格数据
    :param baseUrl: 请求地址
    :param data: 请求载荷参数
    :param headers: 请求头信息
    :return: 解析后的列表数据
    """
    response = requests.post(url=baseUrl, data=data, headers=headers)
    # 设置响应编码，防止乱码
    response.encoding = 'utf-8'
    html = etree.HTML(response.text)
    
    # 定位表格中的行
    trs = html.xpath("//table[@id='tab']/tr")
    result_data = []
    
    for index, tr in enumerate(trs):
        text = tr.xpath("td//text()")
        # 跳过表头行 (index != 0)
        if index != 0 and len(text) > 7:
            # 根据实际页面结构提取对应列的数据
            # 注意：索引可能随页面更新变化，需根据实际情况调整
            row = [
                text[1].strip(),      # 登记证号
                text[],              
                text[],              
                text[],              
                text[],              
                text[],              
                text[].strip()       
            ]
            result_data.append(row)
     result_data

 ():
    
    table = PrettyTable()
    table.field_names = [, , , , , , ]
    table.add_rows(result)
    (table)

 ():
    
    filename = 
    :
         (filename, , encoding=, newline=)  file:
            writer = csv.writer(file)
            writer.writerows(result)
        ()
     Exception  e:
        ()

 ():
    baseUrl = 
    headers = {
        : ,
        : 
    }
    
    data = (
        
        
        
        
        
    )
    
    ()
    result = getData(baseUrl, data, headers)
    
     result:
        printData(result)
        saveData(result)
    :
        ()

 __name__ == :
    main()

一、爬取目标

二、环境准备

在开始之前，请确保已安装以下 Python 库：

requests：用于发送 HTTP 请求。
lxml：用于解析 HTML 文档，支持 XPath 查询。
prettytable：用于在控制台美观地打印表格数据。
csv：Python 标准库，用于处理 CSV 文件读写。

安装命令如下：

pip install requests lxml prettytable

三、完整源码

以下是完整的 Python 脚本代码，包含请求发送、数据解析、结果打印及文件保存功能。

import csv
import requests
from lxml import etree
from prettytable import PrettyTable

def getData(baseUrl, data, headers):
    """
    发送 POST 请求并解析返回的 HTML 表格数据
    :param baseUrl: 请求地址
    :param data: 请求载荷参数
    :param headers: 请求头信息
    :return: 解析后的列表数据
    """
    response = requests.post(url=baseUrl, data=data, headers=headers)
    # 设置响应编码，防止乱码
    response.encoding = 'utf-8'
    html = etree.HTML(response.text)
    
    # 定位表格中的行
    trs = html.xpath("//table[@id='tab']/tr")
    result_data = []
    
    for index, tr in enumerate(trs):
        text = tr.xpath("td//text()")
        # 跳过表头行 (index != 0)
        if index != 0 and len(text) > 7:
            # 根据实际页面结构提取对应列的数据
            # 注意：索引可能随页面更新变化，需根据实际情况调整
            row = [
                text[1].strip(),      # 登记证号
                text[],              
                text[],              
                text[],              
                text[],              
                text[],              
                text[].strip()       
            ]
            result_data.append(row)
     result_data

 ():
    
    table = PrettyTable()
    table.field_names = [, , , , , , ]
    table.add_rows(result)
    (table)

 ():
    
    filename = 
    :
         (filename, , encoding=, newline=)  file:
            writer = csv.writer(file)
            writer.writerows(result)
        ()
     Exception  e:
        ()

 ():
    baseUrl = 
    headers = {
        : ,
        : 
    }
    
    data = (
        
        
        
        
        
    )
    
    ()
    result = getData(baseUrl, data, headers)
    
     result:
        printData(result)
        saveData(result)
    :
        ()

 __name__ == :
    main()

登记证号	农药名称	农药类别	剂型	总含量	有效期至	登记证持有人
PD20095400	咯菌腈	杀菌剂	可湿性粉剂	50%	2029-4-26	瑞士先正达作物保护有限公司
PD20141067	氰烯·己唑醇	杀菌剂	悬浮剂	20%	2029-4-24	陕西上格之路生物科学有限公司
PD20141065	噻嗪·毒死蜱	杀虫剂	可湿性粉剂	30%	2029-4-24	陕西上格之路生物科学有限公司
PD20141049	吡蚜酮	杀虫剂	水分散粒剂	70%	2029-4-23	福建新农大正生物工程有限公司
PD20095204	乙烯利	植物生长调节剂	水剂	40%	2029-4-23	侨昌现代农业有限公司

Python 爬虫实战：获取中国农药信息网登记数据

一、爬取目标

二、环境准备

三、完整源码

Python 爬虫实战：获取中国农药信息网登记数据

一、爬取目标

二、环境准备

三、完整源码

更多推荐文章

相关免费在线工具

四、源码简析

1. 请求头与请求载荷

2. 文件编码处理

3. 数据解析逻辑

五、运行结果

六、注意事项

更多推荐文章

相关免费在线工具

Python 爬虫实战：获取中国农药信息网登记数据

一、爬取目标

二、环境准备

三、完整源码

Python 爬虫实战：获取中国农药信息网登记数据

一、爬取目标

二、环境准备

三、完整源码

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

四、源码简析

1. 请求头与请求载荷

2. 文件编码处理

3. 数据解析逻辑

五、运行结果

六、注意事项

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具