Python 实现微信公众号文章批量爬取与数据导出 | 极客日志

PythonWeChat算法

Python 实现微信公众号文章批量爬取与数据导出

介绍使用 Python 编写爬虫程序，通过获取微信公众平台的 token 和 cookie，批量抓取指定公众号的文章列表及正文内容，并将结果保存为 Excel 文件。主要涉及网络请求、分页逻辑处理及 HTML 解析技术。

Pythonist发布于 2026/3/28更新于 2026/4/176 浏览

Python 实现微信公众号文章批量爬取与数据导出

一、爬取目标

本方案旨在实现批量下载公众号文章，并获取完整正文内容。目前提供源码形式，支持配置多个公众号进行批量爬取。

二、展示爬取结果

爬取结果包含以下字段：

文章配图

文章标题
文章链接（永久链接）
发布时间
公众号名称
文章正文

所有数据自动保存为 Excel 文件，方便后续分析。

三、原理讲解

登录公众平台
在首页下新的创作选择文章，点进去之后在正文添加超链接，然后账号那一行选择要爬取的公众号，接着就会出现公众号发布过的文章。
按 F12 查看数据来源，点击网络，刷新之后可以看到文章数据来源的数据包，接下来对 url 发送请求，取我们想要的值即可。token 和 cookie 也从这里边找。

文章配图

四、爬虫代码讲解

导入库：

import requests
import pandas as pd
import json
import time
import random
from lxml import etree

4.1 核心思路与配置

运行需要两个关键参数：token 和 cookie。这需要你登录公众平台后台，在开发者工具里抓取。为了方便使用，把这些配置都写进了 wechat_config_new.json 文件里：

{
  "token": "你的 token",
  "cookie": "你的 cookie",

极客日志微信公众号二维码

更多推荐文章

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online
HTML转Markdown
将 HTML 片段转为 GitHub Flavored Markdown，支持标题、列表、链接、代码块与表格等；浏览器内处理，可链接预填。在线工具，HTML转Markdown在线工具，online

def get_articles(config, account_name, fakeid):
    page = 0
    all_articles = []
    while True:
        begin = page * 5 # 微信接口每页固定 5 条
        url = "https://mp.weixin.qq.com/cgi-bin/appmsgpublish"
        params = {
            "sub": "list",
            "begin": str(begin),
            "count": "5",
            "fakeid": fakeid, # 核心参数
            "token": config['token'],
        }
        # 发送请求，解析 JSON ...
        # 如果返回的数据为空，说明没有更多了，跳出循环
        if not publish_list:
            break
        page += 1
        time.sleep(random.randint(2, 5)) # 礼貌性等待，防止被封

def get_article_content(link):
    detail_response = requests.get(url=link, headers=header, timeout=15)
    detail_xp = etree.HTML(detail_response.text)
    # 核心 XPath，定位到正文区域
    content_element = detail_xp.xpath("//*[@id='js_content']//text()")
    # 清洗、拼接文本
    content_clean = [text.strip() for text in content_element if text.strip()]
    return '\n'.join(content_clean)