【2026最新公众号爬虫分享】用Python爬取公众号文章,批量下载正文并保存Excel!

【2026最新公众号爬虫分享】用Python爬取公众号文章,批量下载正文并保存Excel!

您好,我是@iFeng的小屋,一枚4年程序猿。

一、爬取目标

我发现很多做运营和数据分析的小伙伴,一直想找能批量下载公众号文章,并且能获取完整正文内容的工具。所以,这次我开发了这个公众号文章爬虫,供大家使用。

目前是源码格式,还没有封装成软件,如果想要软件的我后续开发一个软件版本的。

二、展示爬取结果

话不多说,先看成果。爬取结果包含以下字段:

  • 文章标题
  • 文章链接(永久链接)
  • 发布时间
  • 公众号名称
  • 文章正文

所有数据自动保存为Excel文件,干净整齐,拿去即可食用!

三、原理讲解

1,登录公众平台

2,然后在首页下新的创作选择文章,点进去之后在正文添加超链接,然后账号那一行选择要爬取的公众号,接着就会出现公众号发布过的文章,如下图:

3,这里按F12查看数据来源,点击网络,刷新之后可以看到文章数据来源的数据包,那接下来就要对这个url发送请求,取我们想要的值即可。token和cookie也从这里边找。

三、爬虫代码讲解

导入库:

import requests import pandas as pd import json import time from lxml import etree

3.1 核心思路与配置

运行这个需要两个关键参数:tokencookie。这需要你登录公众平台后台,在开发者工具里抓取。

为了方便使用,我把这些配置都写进了wechat_config_new.json文件里:

{ "token": "你的token", "cookie": "你的cookie", "account_name": ["目标公众号1", "目标公众号2"], "start_date": "2024-01-01", "end_date": "2024-03-20" }

敲黑板account_name支持列表,可以一次配置多个公众号,实现批量爬取!

3.3 关键步骤:获取文章列表,并翻页!

这里涉及到分页逻辑:

def get_articles(config, account_name, fakeid): page = 0 all_articles = [] while True: begin = page * 5 # 微信接口每页固定5条 url = "https://mp.weixin.qq.com/cgi-bin/appmsgpublish" params = { "sub": "list", "begin": str(begin), "count": "5", "fakeid": fakeid, # 核心参数 "token": config['token'], } # 发送请求,解析JSON ... # 如果返回的数据为空,说明没有更多了,跳出循环 if not publish_list: break page += 1 time.sleep(random.randint(2, 5)) # 礼貌性等待,防止被封

获取正文:

def get_article_content(link): detail_response = requests.get(url=link, headers=header, timeout=15) detail_xp = etree.HTML(detail_response.text) # 核心XPath,定位到正文区域 content_element = detail_xp.xpath("//*[@id='js_content']//text()") # 清洗、拼接文本 content_clean = [text.strip() for text in content_element if text.strip()] return '\n'.join(content_clean)

四、如何运行?

  1. 按上面说的,配置好wechat_config_new.json文件。需要更新cookie和token。
  2. 安装依赖:pip install requests pandas lxml openpyxl
  3. 运行主函数main(),坐等Excel文件生成即可。

程序会自动帮你:搜索公众号 -> 遍历所有分页 -> 逐篇下载正文 -> 保存到表格。

五、说明

需要本文完整源码的小伙伴,我都放在了与此号同名的公众号里,大家自行获取。

持续分享Python干货中!更多爬虫源码干货,请前往主页查看~

Read more

AiOnly大模型深度测评:调用GPT-5 API+RAG知识库,快速构建智能客服机器人

AiOnly大模型深度测评:调用GPT-5 API+RAG知识库,快速构建智能客服机器人

声明:本测试报告系作者基于个人兴趣及使用场景开展的非专业测评,测试过程中所涉及的方法、数据及结论均为个人观点,不代表任何官方立场或行业标准。 引言 AI 技术加速渗透各行各业的今天,你是否也面临这样的困境:想调用 GPT-5、Claude4.5等顶尖模型却被海外注册、跨平台适配搞得焦头烂额?想快速搭建智能客服、内容生成工具,却因模型接口差异、成本不可控而望而却步?或是作为中小团队,既想享受 AI 红利,又受限于技术门槛和预算压力? AiOnly平台的出现,正是为了打破这些壁垒。 本文将从实战角度出发,带你全方位解锁这个「全球顶尖大模型 MaaS 平台」:从 5 分钟完成注册到 API 密钥创建,从单模型调用到融合 RAG 知识库的智能体开发,然后手把手教你在 Windows 环境部署一个日均成本不足 0.5 元的电商客服机器人。无论你是 AI 开发者、企业运营者,还是想低成本尝试 AI

By Ne0inhk
win11本地部署openclaw实操第2集-让小龙虾具有telegram机器人能力和搜索网站能力

win11本地部署openclaw实操第2集-让小龙虾具有telegram机器人能力和搜索网站能力

1 按照第一集的部署完成后,我们就开始考虑给小龙虾增加telegram机器人和搜索网站能力,实现效果如下: 2 telegram机器人能力部署 C:\Users\Administrator.openclaw的配置文件openclaw.json 增加一段内容 "channels":{"telegram":{"enabled": true, "dmPolicy":"pairing", "botToken":"你的telegram机器人的token", "groupPolicy":"allowlist", "streamMode":"partial", "network":{"

By Ne0inhk
【Nginx】——从0到1,带你玩转Nginx,掌握其中的技巧以及配置

【Nginx】——从0到1,带你玩转Nginx,掌握其中的技巧以及配置

🎼个人主页:【Y小夜】 😎作者简介:一位双非学校的大三学生,编程爱好者, 专注于基础和实战分享,欢迎私信咨询! 🎆入门专栏:🎇【MySQL,Java基础,Rust】 🎈热门专栏:🎊【Python,Javaweb,Springboot】  感谢您的点赞、关注、评论、收藏、是对我最大的认可和支持!❤️ 目录 🎈概念 🎈下载 🎈上传安装 ✨开始安装 ✨ 目录结构 🎈 常用命令  ✨ 开启nginx  ✨ 看一下文件日志  ✨ 重新加载配置文件 ✨ 配置文件  🎈 配置文件结构 🎈具体应用 ✨ 部署静态资源 ✨ 反向代理 ✨ 负载均衡 🎈概念         Nginx(engine x)由俄罗斯的程序设计师Igor Sysoev所开发,官方测试显示Nginx能够支撑高达5万并发连接数。Nginx不仅可以作为HTTP服务器使用,处理静态页面或支持FastCGI、SCGI、uWSGI等协议的动态语言,还能充当反向代理服务器,实现负载均衡,以及提供IMAP/

By Ne0inhk
Spring Boot 日志配置详解:log4j2.xml 的完整配置指南

Spring Boot 日志配置详解:log4j2.xml 的完整配置指南

在现代企业级应用开发中,日志管理是系统运维和问题排查的重要组成部分。本文将详细介绍如何在 Spring Boot 项目中配置 Log4j2,包括完整的 [log4j2.xml]配置文件和相关依赖设置。 一、为什么选择 Log4j2? Spring Boot 默认使用 Logback 作为日志框架,但在某些场景下我们更倾向于使用 Log4j2: 1. 性能优势:Log4j2 使用异步日志记录,在高并发环境下性能表现更优 2. 无锁设计:采用 LMAX Disruptor 库实现无锁异步日志记录 3. 灵活配置:支持更丰富的日志过滤和格式化选项 4. 动态更新:配置文件修改后无需重启应用即可生效 二、Maven 依赖配置 1. 排除默认日志框架 首先需要排除 Spring Boot 默认的 Logback 依赖: <

By Ne0inhk