Python 爬虫实战：批量获取股票实时行情数据

使用 Python 爬虫技术批量获取股票实时行情数据。流程包括利用 Requests 访问古成网获取股票代码列表，解析同花顺 API 接口获取 JSONP 格式的行情数据，经过去封装处理后存入 MySQL 数据库。文章涵盖环境搭建、网络分析、数据库设计、完整代码实现及反爬优化建议，适合初学者掌握基础爬虫开发流程。

性能调优发布于 2025/2/7更新于 2026/7/2239 浏览

Python 爬虫实战：批量获取股票实时行情数据

前言

网络爬虫是数据采集的重要手段，在金融数据分析、市场监控等领域有着广泛应用。本文将以 Python 为例，演示如何编写一个爬虫程序，通过解析网页列表获取股票代码，调用接口获取实时行情数据，并将结果存储至 MySQL 数据库。内容涵盖环境搭建、网络请求分析、JSONP 数据处理、异常处理机制及数据库操作等关键技术点，适合初学者进行爬虫练手。

环境准备

在开始之前，请确保已安装以下依赖库：

pip install requests pyquery pymysql

同时需要配置好 MySQL 数据库环境，并创建一个用于存储数据的数据库（例如 test）。

数据分析

1. 获取股票代码列表

首先我们需要知道有哪些股票。这里我们使用古成网的股票列表页面作为数据源：

https://hq.gucheng.com/gpdmylb.html

打开浏览器开发者工具（F12），切换到 Network 标签页，刷新页面，可以发现该页面是通过 HTML 直接渲染的静态链接。我们需要提取所有包含 6 位数字的股票代码链接。

2. 获取股票详情数据

进入任意一只股票的详情页（如平安银行），观察其数据加载方式。我们发现数据并非直接渲染在 HTML 中，而是通过 AJAX 请求从后端接口获取。

接口地址示例： http://qd.10jqka.com.cn/quote.php?cate=real&type=stock&callback=showStockDate&return=json&code=000001

注意返回的数据格式为 JSONP，即包裹在回调函数 showStockDate(...) 中的 JSON 字符串。我们需要剥离头尾的函数名，将其转换为标准 JSON 对象进行解析。

数据库设计

为了存储爬取的数据，我们需要创建一张表。字段包括股票代码、名称、价格、成交量等信息。

CREATE TABLE IF NOT EXISTS stock (
    id INT AUTO_INCREMENT PRIMARY KEY,
    code VARCHAR(20) NOT NULL COMMENT '股票代码',
    name VARCHAR(50) NOT NULL COMMENT '股票名称',
    jinkai DECIMAL(10,2) COMMENT '今开',
    chengjiaoliang DECIMAL(20,2) COMMENT '成交量',
    zhenfu DECIMAL(10,2) COMMENT '振幅',
    zuigao (,) COMMENT ,
    chengjiaoe (,) COMMENT ,
    huanshou (,) COMMENT ,
    zuidi (,) COMMENT ,
    zuoshou (,) COMMENT ,
    liutongshizhi (,) COMMENT ,
    create_date DATETIME   COMMENT 
) ENGINEInnoDB  CHARSETutf8mb4;

Python 爬虫实战：批量获取股票实时行情数据

前言

环境准备

在开始之前，请确保已安装以下依赖库：

pip install requests pyquery pymysql

同时需要配置好 MySQL 数据库环境，并创建一个用于存储数据的数据库（例如 test）。

数据分析

1. 获取股票代码列表

首先我们需要知道有哪些股票。这里我们使用古成网的股票列表页面作为数据源：

https://hq.gucheng.com/gpdmylb.html

2. 获取股票详情数据

进入任意一只股票的详情页（如平安银行），观察其数据加载方式。我们发现数据并非直接渲染在 HTML 中，而是通过 AJAX 请求从后端接口获取。

接口地址示例： http://qd.10jqka.com.cn/quote.php?cate=real&type=stock&callback=showStockDate&return=json&code=000001

注意返回的数据格式为 JSONP，即包裹在回调函数 showStockDate(...) 中的 JSON 字符串。我们需要剥离头尾的函数名，将其转换为标准 JSON 对象进行解析。

数据库设计

为了存储爬取的数据，我们需要创建一张表。字段包括股票代码、名称、价格、成交量等信息。

CREATE TABLE IF NOT EXISTS stock (
    id INT AUTO_INCREMENT PRIMARY KEY,
    code VARCHAR(20) NOT NULL COMMENT '股票代码',
    name VARCHAR(50) NOT NULL COMMENT '股票名称',
    jinkai DECIMAL(10,2) COMMENT '今开',
    chengjiaoliang DECIMAL(20,2) COMMENT '成交量',
    zhenfu DECIMAL(10,2) COMMENT '振幅',
    zuigao (,) COMMENT ,
    chengjiaoe (,) COMMENT ,
    huanshou (,) COMMENT ,
    zuidi (,) COMMENT ,
    zuoshou (,) COMMENT ,
    liutongshizhi (,) COMMENT ,
    create_date DATETIME   COMMENT 
) ENGINEInnoDB  CHARSETutf8mb4;

import requests import re import json from pyquery import PyQuery import pymysql import time # 数据库连接配置 def connect(): try: conn = pymysql.connect( host='localhost', port=3306, user='root', password='password', # 生产环境建议使用环境变量管理密码 database='test', charset='utf8mb4' ) cursor = conn.cursor() return {"conn": conn, "cursor": cursor} except Exception as e: print(f"数据库连接失败：{e}") return None connection = connect() if connection: conn, cursor = connection['conn'], connection['cursor'] else: exit() # SQL 插入语句 sql_insert = "INSERT INTO stock(code, name, jinkai, chengjiaoliang, zhenfu, zuigao, chengjiaoe, huanshou, zuidi, zuoshou, liutongshizhi, create_date) VALUES (%(code)s, %(name)s, %(jinkai)s, %(chengjiaoliang)s, %(zhenfu)s, %(zuigao)s, %(chengjiaoe)s, %(huanshou)s, %(zuidi)s, %(zuoshou)s, %(liutongshizhi)s, NOW())" headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36' } def get_stock_list(stock_list_url): """获取股票代码列表""" r = requests.get(stock_list_url, headers=headers) r.encoding = 'utf-8' doc = PyQuery(r.text) stock_codes = [] # 遍历表格中的链接节点 for i in doc('.stockTable a').items(): try: href = i.attr.href # 使用正则提取 6 位数字 match = re.findall(r"\d{6}", href) if match: stock_codes.append(match[0]) except Exception: continue return stock_codes def get_stock_info(stock_codes, info_url): """获取单只股票详情并写入数据库""" count = 0 for stock in stock_codes: try: url = f"{info_url}{stock}" r = requests.get(url, headers=headers) # 处理 JSONP 数据，去除首尾的 showStockDate(...) 包装 text = r.text.strip() if text.startswith('showStockDate'): start_idx = text.find('(') + 1 end_idx = text.rfind(')') json_str = text[start_idx:end_idx] dict1 = json.loads(json_str) else: dict1 = json.loads(text) # 提取关键数据 data = dict1.get('data', {}).get(stock, {}) insert_data = { "code": stock, "name": dict1['info'][stock]['name'], "jinkai": data.get('7'), "chengjiaoliang": data.get('13'), "zhenfu": data.get('526792'), "zuigao": data.get('8'), "chengjiaoe": data.get('19'), "huanshou": data.get('1968584'), "zuidi": data.get('9'), "zuoshou": data.get('6'), "liutongshizhi": data.get('3471914') } cursor.execute(sql_insert, insert_data) conn.commit() print(f"[{count+1}] 写入完成：{stock}") count += 1 # 控制请求频率，避免被封 IP time.sleep(0.5) except Exception as e: print(f"写入异常 [{stock}]：{e}") continue def main(): stock_list_url = 'https://hq.gucheng.com/gpdmylb.html' stock_info_url = 'http://qd.10jqka.com.cn/quote.php?cate=real&type=stock&callback=showStockDate&return=json&code=' print("正在获取股票代码列表...") list = get_stock_list(stock_list_url) print(f"共获取到 {len(list)} 个股票代码") print("开始抓取股票详情...") get_stock_info(list, stock_info_url) print("任务执行完毕") if __name__ == '__main__': main()

Python 爬虫实战：批量获取股票实时行情数据

Python 爬虫实战：批量获取股票实时行情数据

前言

环境准备

数据分析

1. 获取股票代码列表

2. 获取股票详情数据

数据库设计

Python 爬虫实战：批量获取股票实时行情数据

Python 爬虫实战：批量获取股票实时行情数据

前言

环境准备

数据分析

1. 获取股票代码列表

2. 获取股票详情数据

数据库设计

更多推荐文章

相关免费在线工具

代码实现

优化建议与注意事项

总结

更多推荐文章

相关免费在线工具

Python 爬虫实战：批量获取股票实时行情数据

Python 爬虫实战：批量获取股票实时行情数据

前言

环境准备

数据分析

1. 获取股票代码列表

2. 获取股票详情数据

数据库设计

Python 爬虫实战：批量获取股票实时行情数据

Python 爬虫实战：批量获取股票实时行情数据

前言

环境准备

数据分析

1. 获取股票代码列表

2. 获取股票详情数据

数据库设计

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

代码实现

优化建议与注意事项

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具