Python 入门指南：基于爬虫技术的零基础学习路径

Python 入门指南：基于爬虫技术的零基础学习路径 | 极客日志

python -m venv my_env
source my_env/bin/activate  # Windows: my_env\Scripts\activate

pip install requests beautifulsoup4 lxml

import requests
from bs4 import BeautifulSoup

url = 'https://www.baidu.com'
try:
    # 设置 User-Agent 模拟浏览器访问，防止被反爬
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    response = requests.get(url, headers=headers, timeout=10)
    response.encoding = response.apparent_encoding
    
    if response.status_code == 200:
        soup = BeautifulSoup(response.text, 'html.parser')
        title = soup.title.string
        print(f"页面标题：{title}")
    else:
        print(f"请求失败，状态码：{response.status_code}")
except Exception as e:
    print(f"发生错误：{e}")

import requests
import time
import random
import json

def fetch_video_data(keyword, page=1):
    url = "https://api.bilibili.com/x/web-interface/search/type"
    params = {
        'search_type': 'video',
        'keyword': keyword,
        'page': page,
        'page_size': 20
    }
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    
    try:
        response = requests.get(url, params=params, headers=headers, timeout=10)
        data = response.json()
        
        if data['code'] == 0:
            items = data['data']['result']
            for item in items:
                video_info = {
                    'title': item.get('title'),
                    'author': item.get('owner', {}).get('name'),
                    'play_count': item.get('stat', {}).get('view'),
                    'url': f"https://www.bilibili.com/video/{item.get('bvid')}"
                }
                print(json.dumps(video_info, ensure_ascii=False))
        else:
            print("API 返回错误")
    except Exception as e:
        print(f"请求异常：{e}")

# 循环抓取多页数据
if __name__ == '__main__':
    keyword = "Python 教程"
    for i in range(1, 3):  # 抓取前 2 页
        fetch_video_data(keyword, page=i)
        # 遵守反爬策略，随机延时
        time.sleep(random.uniform(1.0, 3.0))

Python 入门指南：基于爬虫技术的零基础学习路径

Python 入门指南：基于爬虫技术的零基础学习路径

为什么选择 Python 进行爬虫开发？

一、学习准备与基础环境

1. 环境搭建

2. 核心库安装

二、核心知识点规划

1. Python 基础知识

2. 网络编程基础

3. 网页内容解析

4. 数据存储与管理

三、实战案例详解

案例 1：基础页面抓取

案例 2：B 站视频搜索接口分析

1. 接口分析

2. 代码实现

四、进阶技巧与注意事项

1. 异常处理

2. 反爬应对

3. 道德与法律规范

五、总结

更多推荐文章

相关免费在线工具

Python 入门指南：基于爬虫技术的零基础学习路径

Python 入门指南：基于爬虫技术的零基础学习路径

为什么选择 Python 进行爬虫开发？

一、学习准备与基础环境

1. 环境搭建

2. 核心库安装

二、核心知识点规划

1. Python 基础知识

2. 网络编程基础

3. 网页内容解析

4. 数据存储与管理

三、实战案例详解

案例 1：基础页面抓取

案例 2：B 站视频搜索接口分析

1. 接口分析

2. 代码实现

四、进阶技巧与注意事项

1. 异常处理

2. 反爬应对

3. 道德与法律规范

五、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具