【2026最新公众号爬虫分享】用Python爬取公众号文章，批量下载正文并保存Excel！

Ne0inhk

21 Mar 2026 — 4 min read

您好，我是@iFeng的小屋，一枚4年程序猿。

一、爬取目标

我发现很多做运营和数据分析的小伙伴，一直想找能批量下载公众号文章，并且能获取完整正文内容的工具。所以，这次我开发了这个公众号文章爬虫，供大家使用。

目前是源码格式，还没有封装成软件，如果想要软件的我后续开发一个软件版本的。

二、展示爬取结果

话不多说，先看成果。爬取结果包含以下字段：

文章标题
文章链接（永久链接）
发布时间
公众号名称
文章正文

所有数据自动保存为Excel文件，干净整齐，拿去即可食用！

三、原理讲解

1，登录公众平台

2，然后在首页下新的创作选择文章，点进去之后在正文添加超链接，然后账号那一行选择要爬取的公众号，接着就会出现公众号发布过的文章，如下图：

3，这里按F12查看数据来源，点击网络，刷新之后可以看到文章数据来源的数据包，那接下来就要对这个url发送请求，取我们想要的值即可。token和cookie也从这里边找。

三、爬虫代码讲解

导入库：

import requests import pandas as pd import json import time from lxml import etree

3.1 核心思路与配置

运行这个需要两个关键参数：token和cookie。这需要你登录公众平台后台，在开发者工具里抓取。

为了方便使用，我把这些配置都写进了wechat_config_new.json文件里：

{ "token": "你的token", "cookie": "你的cookie", "account_name": ["目标公众号1", "目标公众号2"], "start_date": "2024-01-01", "end_date": "2024-03-20" }

敲黑板：account_name支持列表，可以一次配置多个公众号，实现批量爬取！

3.3 关键步骤：获取文章列表，并翻页！

这里涉及到分页逻辑：

def get_articles(config, account_name, fakeid): page = 0 all_articles = [] while True: begin = page * 5 # 微信接口每页固定5条 url = "https://mp.weixin.qq.com/cgi-bin/appmsgpublish" params = { "sub": "list", "begin": str(begin), "count": "5", "fakeid": fakeid, # 核心参数 "token": config['token'], } # 发送请求，解析JSON ... # 如果返回的数据为空，说明没有更多了，跳出循环 if not publish_list: break page += 1 time.sleep(random.randint(2, 5)) # 礼貌性等待，防止被封

获取正文：

def get_article_content(link): detail_response = requests.get(url=link, headers=header, timeout=15) detail_xp = etree.HTML(detail_response.text) # 核心XPath，定位到正文区域 content_element = detail_xp.xpath("//*[@id='js_content']//text()") # 清洗、拼接文本 content_clean = [text.strip() for text in content_element if text.strip()] return '\n'.join(content_clean)

四、如何运行？

按上面说的，配置好wechat_config_new.json文件。需要更新cookie和token。
安装依赖：pip install requests pandas lxml openpyxl
运行主函数main()，坐等Excel文件生成即可。

程序会自动帮你：搜索公众号 -> 遍历所有分页 -> 逐篇下载正文 -> 保存到表格。

五、说明

需要本文完整源码的小伙伴，我都放在了与此号同名的公众号里，大家自行获取。

持续分享Python干货中！更多爬虫源码干货，请前往主页查看~

AiOnly大模型深度测评：调用GPT-5 API+RAG知识库，快速构建智能客服机器人

声明：本测试报告系作者基于个人兴趣及使用场景开展的非专业测评，测试过程中所涉及的方法、数据及结论均为个人观点，不代表任何官方立场或行业标准。引言 AI 技术加速渗透各行各业的今天，你是否也面临这样的困境：想调用 GPT-5、Claude4.5等顶尖模型却被海外注册、跨平台适配搞得焦头烂额？想快速搭建智能客服、内容生成工具，却因模型接口差异、成本不可控而望而却步？或是作为中小团队，既想享受 AI 红利，又受限于技术门槛和预算压力？ AiOnly平台的出现，正是为了打破这些壁垒。本文将从实战角度出发，带你全方位解锁这个「全球顶尖大模型 MaaS 平台」：从 5 分钟完成注册到 API 密钥创建，从单模型调用到融合 RAG 知识库的智能体开发，然后手把手教你在 Windows 环境部署一个日均成本不足 0.5 元的电商客服机器人。无论你是 AI 开发者、企业运营者，还是想低成本尝试 AI

win11本地部署openclaw实操第2集-让小龙虾具有telegram机器人能力和搜索网站能力

1 按照第一集的部署完成后，我们就开始考虑给小龙虾增加telegram机器人和搜索网站能力，实现效果如下： 2 telegram机器人能力部署 C:\Users\Administrator.openclaw的配置文件openclaw.json 增加一段内容 "channels":{"telegram":{"enabled": true, "dmPolicy":"pairing", "botToken":"你的telegram机器人的token", "groupPolicy":"allowlist", "streamMode":"partial", "network":{"

【Nginx】——从0到1，带你玩转Nginx，掌握其中的技巧以及配置

🎼个人主页：【Y小夜】 😎作者简介：一位双非学校的大三学生，编程爱好者，专注于基础和实战分享，欢迎私信咨询！ 🎆入门专栏：🎇【MySQL，Java基础，Rust】 🎈热门专栏：🎊【Python，Javaweb，Springboot】感谢您的点赞、关注、评论、收藏、是对我最大的认可和支持！❤️ 目录 🎈概念 🎈下载 🎈上传安装 ✨开始安装 ✨ 目录结构 🎈 常用命令 ✨ 开启nginx ✨ 看一下文件日志 ✨ 重新加载配置文件 ✨ 配置文件 🎈 配置文件结构 🎈具体应用 ✨ 部署静态资源 ✨ 反向代理 ✨ 负载均衡 🎈概念 Nginx（engine x）由俄罗斯的程序设计师Igor Sysoev所开发，官方测试显示Nginx能够支撑高达5万并发连接数。Nginx不仅可以作为HTTP服务器使用，处理静态页面或支持FastCGI、SCGI、uWSGI等协议的动态语言，还能充当反向代理服务器，实现负载均衡，以及提供IMAP/

Spring Boot 日志配置详解：log4j2.xml 的完整配置指南

在现代企业级应用开发中，日志管理是系统运维和问题排查的重要组成部分。本文将详细介绍如何在 Spring Boot 项目中配置 Log4j2，包括完整的 [log4j2.xml]配置文件和相关依赖设置。一、为什么选择 Log4j2？ Spring Boot 默认使用 Logback 作为日志框架，但在某些场景下我们更倾向于使用 Log4j2： 1. 性能优势：Log4j2 使用异步日志记录，在高并发环境下性能表现更优 2. 无锁设计：采用 LMAX Disruptor 库实现无锁异步日志记录 3. 灵活配置：支持更丰富的日志过滤和格式化选项 4. 动态更新：配置文件修改后无需重启应用即可生效二、Maven 依赖配置 1. 排除默认日志框架首先需要排除 Spring Boot 默认的 Logback 依赖： <