Python 网络爬虫基础：FastAPI 与数据可视化 | 极客日志

Python算法

Python 网络爬虫基础：FastAPI 与数据可视化

介绍 Python 网络爬虫的基础知识与应用。内容包括基于 FastAPI 搭建 Web 服务器及通用配置，讲解爬虫基本步骤（请求、解析、入库），演示使用 requests 模块爬取图片和 GDP 数据。此外，还涉及多任务爬虫实现以提升效率，利用 pyecharts 进行数据可视化展示，以及 logging 日志模块在 Web 项目中的应用与配置。通过实际代码示例，帮助读者掌握从数据采集到可视化的完整流程。

赛博行者发布于 2026/3/27更新于 2026/5/2326 浏览

一、基于 FastAPI 之 Web 站点开发

1. 基于 FastAPI 搭建 Web 服务器

# 导入 FastAPI 模块
from fastapi import FastAPI
# 导入响应报文 Response 模块
from fastapi import Response
# 导入服务器 uvicorn 模块
import uvicorn

# 创建 FastAPI 框架对象
app = FastAPI()

# 通过@app 路由装饰器收发数据
# @app.get(参数) : 按照 get 方式接受请求数据
# 请求资源的 url 路径
@app.get("/index.html")
def main():
    with open("source/html/index.html", "rb") as f:
        data = f.read()
    # return 返回响应数据
    # Response(content=data, media_type="text/html"
    # 参数 1: 响应数据
    # 参数 2: 数据格式
    return Response(content=data, media_type="text/html")

# 运行服务器
# 参数 1: 框架对象
# 参数 2: IP 地址
# 参数 3: 端口号
uvicorn.run(app, host="127.0.0.1", port=8000)

Web 服务器启动结果

2. Web 服务器和浏览器的通讯流程

实际上 Web 服务器和浏览器的通讯流程过程并不是一次性完成的，这里 html 代码中也会有访问服务器的代码，比如请求图片资源。

通讯流程示意图

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

# 当浏览器发出对图片 0.jpg 的请求时，函数返回相应资源
@app.get("/images/0.jpg")
def func_01():
    with open("source/images/0.jpg", "rb") as f:
        data = f.read()
    print(data)
    return Response(content=data, media_type="jpg")

# 导入 FastAPI 模块
from fastapi import FastAPI
# 导入响应报文 Response 模块
from fastapi import Response
# 导入服务器 uvicorn 模块
import uvicorn

# 创建 FastAPI 框架对象
app = FastAPI()

@app.get("/images/0.jpg")
def func_01():
    with open("source/images/0.jpg", "rb") as f:
        data = f.read()
    print(data)
    return Response(content=data, media_type="jpg")

@app.get("/images/1.jpg")
def func_02():
    with open("source/images/1.jpg", "rb") as f:
        data = f.read()
    return Response(content=data, media_type="jpg")

@app.get("/images/2.jpg")
def func_03():
    with open("source/images/2.jpg", "rb") as f:
        data = f.read()
    return Response(content=data, media_type="jpg")

@app.get("/images/3.jpg")
def func_04():
    with open("source/images/3.jpg", "rb") as f:
        data = f.read()
    return Response(content=data, media_type="jpg")

@app.get("/images/4.jpg")
def func_05():
    with open("source/images/4.jpg", "rb") as f:
        data = f.read()
    return Response(content=data, media_type="jpg")

@app.get("/images/5.jpg")
def func_06():
    with open("source/images/5.jpg", "rb") as f:
        data = f.read()
    return Response(content=data, media_type="jpg")

@app.get("/images/6.jpg")
def func_07():
    with open("source/images/6.jpg", "rb") as f:
        data = f.read()
    return Response(content=data, media_type="jpg")

@app.get("/index.html")
def main():
    with open("source/html/index.html", "rb") as f:
        data = f.read()
    # return 返回响应数据
    # Response(content=data, media_type="text/source"
    # 参数 1: 响应数据
    # 参数 2: 数据格式
    return Response(content=data, media_type="text/html")

# 运行服务器
# 参数 1: 框架对象
# 参数 2: IP 地址
# 参数 3: 端口号
uvicorn.run(app, host="127.0.0.1", port=8000)

# 返回 0.jpg
@app.get("/images/0.jpg")
def func_01():
    with open("source/images/0.jpg", "rb") as f:
        data = f.read()
    print(data)
    return Response(content=data, media_type="jpg")

# 返回 1.jpg
@app.get("/images/1.jpg")
def func_02():
    with open("source/images/1.jpg", "rb") as f:
        data = f.read()
    return Response(content=data, media_type="jpg")

# 返回 2.jpg
@app.get("/images/2.jpg")
def func_03():
    with open("source/images/2.jpg", "rb") as f:
        data = f.read()
    return Response(content=data, media_type="jpg")

# 当请求为 /images/0.jpg 时，path ==> 0.jpg
@app.get("/images/{path}")
# 注意这里的参数需要设置为 path
# path : str ==> 指定 path 为字符串类型的数据
def get_pic(path: str):
    # 这里 open() 的路径就是 ==> f"source/images/0.jpg"
    with open(f"source/images/{path}", "rb") as f:
        data = f.read()
    # return 返回响应数据
    # Response(content=data, media_type="jpg"
    # 参数 1: 响应数据
    # 参数 2: 数据格式
    return Response(content=data, media_type="jpg")

# 导入 FastAPI 模块
from fastapi import FastAPI
# 导入响应报文 Response 模块
from fastapi import Response
# 导入服务器 uvicorn 模块
import uvicorn

# 创建 FastAPI 框架对象
app = FastAPI()

# 当请求为 /images/0.jpg 时，path ==> 0.jpg
@app.get("/images/{path}")
def get_pic(path: str):
    with open(f"source/images/{path}", "rb") as f:
        data = f.read()
    return Response(content=data, media_type="jpg")

@app.get("/{path}")
def get_html(path: str):
    with open(f"source/html/{path}", 'rb') as f:
        data = f.read()
    return Response(content=data, media_type="text/html")

# 运行服务器
uvicorn.run(app, host="127.0.0.1", port=8000)

# 导入模块
import requests
# 通过 requests.get() 发送请求
# data 保存返回的响应数据 (这里的响应数据不是单纯的 html，需要通过 content 获取 html 代码)
data = requests.get("http://www.baidu.com")
# 通过 data.content 获取 html 代码
data = data.content.decode("utf-8")

# 通过爬虫向 index.html 发送请求
# requests.get(网址): 向一个网址发送请求，和在浏览器中输入网址是一样的
data = requests.get("http://127.0.0.1:8000/index.html")
# content 可以把 requests.get() 获取的返回值中的 html 内容获取到
data = data.content.decode("utf-8")

import re

# 获取图片的请求 url
def get_pic_url():
    # 通过爬虫向 index.html 发送请求
    data = requests.get("http://127.0.0.1:8000/index.html")
    # content 可以把 requests.get() 获取的返回值中的 html 内容获取到
    data = data.content.decode("utf-8")
    # html 每一行都有 " ", 对 html 进行分割获得一个列表
    data = data.split(" ")
    # 创建一个列表存储所有图片的 url 地址 (也就是图片网址)
    url_list = []
    for url in data:
        # 通过正则解析出所有的图片 url
        result = re.match('.*src="(.*)" width.*', url)
        if result is not None:
            # 把解析出来的图片 url 添加到 url_list 中
            url_list.append(result.group(1))
    return url_list

# 把爬取到的图片保存到本地
def save_pic(url_list):
    # 通过 num 给照片起名字 例如:0.jpg 1.jpg 2.jpg
    num = 0
    for url in url_list:
        # 通过 requests.get() 获取每一张图片
        pic = requests.get(f"http://127.0.0.1:8000{url[1:]}")
        # 保存每一张图片
        with open(f"./source/spyder/{num}.jpg", "wb") as f:
            f.write(pic.content)
        num += 1

a = [1, 2, 3]
b = [4, 5, 6]
c = [4, 5, 6, 7, 8]
# 打包为元组的列表
zipped = zip(a, b)
# 注意使用的时候需要 list 转化
print(list(zipped))
# >>> [(1, 4), (2, 5), (3, 6)]

# 元素个数与最短的列表一致
zipped = zip(a, c)
print(list(zipped))
# >>> [(1, 4), (2, 5), (3, 6)]

import requests
import re

# 存储爬取到的国家的名字
country_list = []
# 存储爬取到的国家 gdp 的数据
gdp_list = []

# 获取 gdp 数据
def get_gdp_data():
    global country_list
    global gdp_list
    # 获取 gdp 的 html 数据
    data = requests.get("http://localhost:8000/gdp.html")
    # 对获取数据进行解码
    data = data.content.decode("utf8")
    # 对 gdp 的 html 数据进行按行分割
    data_list = data.split(" ")
    for i in data_list:
        # 对 html 进行解析获取<国家名字>
        country_result = re.match('.*<a><font>(.*)</font></a>', i)
        # 匹配成功就存放到列表中
        if country_result is not None:
            country_list.append(country_result.group(1))
        # 对 html 进行解析获取<gdp 数据>
        gdp_result = re.match(".*￥(.*)亿元", i)
        # 匹配成功就存储到列表中
        if gdp_result is not None:
            gdp_list.append(gdp_result.group(1))
    # 把两个列表融合成一个列表
    gdp_data = list(zip(country_list, gdp_list))
    print(gdp_data)

if __name__ == '__main__':
    get_gdp_data()

import multiprocessing

# 获取 gdp
def get_gdp_data():
    pass

# 获取照片
def get_pic():
    pass

if __name__ == '__main__':
    p1 = multiprocessing.Process(target=get_pic)
    p2 = multiprocessing.Process(target=get_gdp_data)
    p1.start()
    p2.start()

# 导入饼图模块
from pyecharts.charts import Pie
# 导入配置选项模块
import pyecharts.options as opts

# 创建饼图并设置这个界面的长和高
# px:像素单位
pie = Pie(init_opts=opts.InitOpts(width="1400px",))

# 给饼图添加数据
pie.add(
    "GDP",
    data,
    label_opts=opts.LabelOpts(formatter='{b}:{d}%')
)

# 给饼图设置标题
pie.set_global_opts(title_opts=opts.TitleOpts(title="2020 年世界 GDP 排名", subtitle="美元"))

# 保存结果
pie.render()

import requests
import re
# 导入饼图模块
from pyecharts.charts import Pie
# 导入配置选项模块
import pyecharts.options as opts

# 存储爬取到的国家的名字
country_list = []
# 春初爬取到的国家 gdp 的数据
gdp_list = []

def get_gdp_data():
    global country_list
    global gdp_list
    # 获取 gdp 的 html 数据
    data = requests.get("http://localhost:8000/gdp.html")
    # 对获取数据进行解码
    data = data.content.decode("utf8")
    # 对 gdp 的 html 数据进行按行分割
    data_list = data.split(" ")
    for i in data_list:
        # 对 html 进行解析获取<国家名字>
        country_result = re.match('.*<a><font>(.*)</font></a>', i)
        # 匹配成功就存放到列表中
        if country_result is not None:
            country_list.append(country_result.group(1))
        # 对 html 进行解析获取<gdp 数据>
        gdp_result = re.match(".*￥(.*)亿元", i)
        # 匹配成功就存储到列表中
        if gdp_result is not None:
            gdp_list.append(gdp_result.group(1))

# 创建一个饼状图显示 GDP 前十的国家
def data_view_pie():
    # 获取前十的过的 GDP 数据，同时让数据符合 [(),()...] 的形式
    data = list(zip(country_list[:10], gdp_list[:10]))
    # 创建饼图
    pie = Pie(init_opts=opts.InitOpts(width="1400px",))
    # 给饼图添加数据
    pie.add(
        "GDP",
        data,
        label_opts=opts.LabelOpts(formatter='{b}:{d}%')
    )
    # 给饼图设置标题
    pie.set_global_opts(title_opts=opts.TitleOpts(title="2020 年世界 GDP 排名", subtitle="美元"))
    # 保存结果
    pie.render()

if __name__ == '__main__':
    # 获取 GDP 数据
    get_gdp_data()
    # 生成可视化饼图
    data_view_pie()

import logging
logging.debug('这是一个 debug 级别的日志信息')
logging.info('这是一个 info 级别的日志信息')
logging.warning('这是一个 warning 级别的日志信息')
logging.error('这是一个 error 级别的日志信息')
logging.critical('这是一个 critical 级别的日志信息')

WARNING:root:这是一个 warning 级别的日志信息
ERROR:root:这是一个 error 级别的日志信息
CRITICAL:root:这是一个 critical 级别的日志信息

import logging
logging.basicConfig(level=logging.DEBUG,
                    format='%(asctime)s - %(filename)s[line:%(lineno)d] - %(levelname)s: %(message)s')
logging.debug('这是一个 debug 级别的日志信息')
logging.info('这是一个 info 级别的日志信息')
logging.warning('这是一个 warning 级别的日志信息')
logging.error('这是一个 error 级别的日志信息')
logging.critical('这是一个 critical 级别的日志信息')

2019-02-13 20:41:33,080 - hello.py[line:6] - DEBUG: 这是一个 debug 级别的日志信息
2019-02-13 20:41:33,080 - hello.py[line:7] - INFO: 这是一个 info 级别的日志信息
2019-02-13 20:41:33,080 - hello.py[line:8] - WARNING: 这是一个 warning 级别的日志信息
2019-02-13 20:41:33,080 - hello.py[line:9] - ERROR: 这是一个 error 级别的日志信息
2019-02-13 20:41:33,080 - hello.py[line:10] - CRITICAL: 这是一个 critical 级别的日志信息

import logging
logging.basicConfig(level=logging.DEBUG,
                    format='%(asctime)s - %(filename)s[line:%(lineno)d] - %(levelname)s: %(message)s',
                    filename="log.txt",
                    filemode="w")
logging.debug('这是一个 debug 级别的日志信息')
logging.info('这是一个 info 级别的日志信息')
logging.warning('这是一个 warning 级别的日志信息')
logging.error('这是一个 error 级别的日志信息')
logging.critical('这是一个 critical 级别的日志信息')

@app.get("/{path}")
def get_html(path: str):
    with open(f"source/html/{path}") as f:
        data = f.read()
    # 打 log
    logging.info("访问了" + path)
    return Response(content=data, media_type="text/html")

@app.get("/images/{path}")
def get_pic(path: str):
    with open(f"source/images/{path}", "rb") as f:
        data = f.read()
    # 打 log
    logging.info("访问了" + path)
    return Response(content=data, media_type="jpg")

from fastapi import FastAPI
from fastapi import Response
import uvicorn
import logging

app = FastAPI()

# 配置日志
logging.basicConfig(level=logging.INFO,
                    format='%(asctime)s - %(filename)s[line:%(lineno)d] - %(levelname)s: %(message)s',
                    filename="log.txt",
                    filemode="w")

Python 网络爬虫基础：FastAPI 与数据可视化

一、基于 FastAPI 之 Web 站点开发

1. 基于 FastAPI 搭建 Web 服务器

2. Web 服务器和浏览器的通讯流程

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 浏览器访问 Web 服务器的通讯流程

4. 加载图片资源代码

二、基于 Web 请求的 FastAPI 通用配置

1. 目前 Web 服务器存在问题

2. 基于 Web 请求的 FastAPI 通用配置

三、Python 爬虫介绍

1. 什么是爬虫

2. 爬虫的基本步骤

3. 安装 requests 模块

4. 爬取照片

① 查看 index.html

② 爬取照片步骤

③ 获取 index.html 代码

④ 解析 index.html 代码获取图片 url

⑤ 通过图片 url 获取图片

四、使用 Python 爬取 GDP 数据

1. gdp.html

2. zip 函数的使用

3. 爬取 GDP 数据

五、多任务爬虫实现

1. 为什么用多任务

2. 多任务爬取数据

3. 多任务代码实现

六、数据可视化

1. 什么是数据可视化

2. pyecharts 模块

3. 通过 pyecharts 模块创建饼状图

4. 完整代码

5. 小结

七、Logging 日志模块

1. logging 日志的介绍

2. logging 日志级别介绍

3. logging 日志的使用

4. logging 日志在 Web 项目中应用

5. 小结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具