【2026最新公众号爬虫分享】用Python爬取公众号文章,批量下载正文并保存Excel!

【2026最新公众号爬虫分享】用Python爬取公众号文章,批量下载正文并保存Excel!

您好,我是@iFeng的小屋,一枚4年程序猿。

一、爬取目标

我发现很多做运营和数据分析的小伙伴,一直想找能批量下载公众号文章,并且能获取完整正文内容的工具。所以,这次我开发了这个公众号文章爬虫,供大家使用。

目前是源码格式,还没有封装成软件,如果想要软件的我后续开发一个软件版本的。

二、展示爬取结果

话不多说,先看成果。爬取结果包含以下字段:

  • 文章标题
  • 文章链接(永久链接)
  • 发布时间
  • 公众号名称
  • 文章正文

所有数据自动保存为Excel文件,干净整齐,拿去即可食用!

三、原理讲解

1,登录公众平台

2,然后在首页下新的创作选择文章,点进去之后在正文添加超链接,然后账号那一行选择要爬取的公众号,接着就会出现公众号发布过的文章,如下图:

3,这里按F12查看数据来源,点击网络,刷新之后可以看到文章数据来源的数据包,那接下来就要对这个url发送请求,取我们想要的值即可。token和cookie也从这里边找。

三、爬虫代码讲解

导入库:

import requests import pandas as pd import json import time from lxml import etree

3.1 核心思路与配置

运行这个需要两个关键参数:tokencookie。这需要你登录公众平台后台,在开发者工具里抓取。

为了方便使用,我把这些配置都写进了wechat_config_new.json文件里:

{ "token": "你的token", "cookie": "你的cookie", "account_name": ["目标公众号1", "目标公众号2"], "start_date": "2024-01-01", "end_date": "2024-03-20" }

敲黑板account_name支持列表,可以一次配置多个公众号,实现批量爬取!

3.3 关键步骤:获取文章列表,并翻页!

这里涉及到分页逻辑:

def get_articles(config, account_name, fakeid): page = 0 all_articles = [] while True: begin = page * 5 # 微信接口每页固定5条 url = "https://mp.weixin.qq.com/cgi-bin/appmsgpublish" params = { "sub": "list", "begin": str(begin), "count": "5", "fakeid": fakeid, # 核心参数 "token": config['token'], } # 发送请求,解析JSON ... # 如果返回的数据为空,说明没有更多了,跳出循环 if not publish_list: break page += 1 time.sleep(random.randint(2, 5)) # 礼貌性等待,防止被封

获取正文:

def get_article_content(link): detail_response = requests.get(url=link, headers=header, timeout=15) detail_xp = etree.HTML(detail_response.text) # 核心XPath,定位到正文区域 content_element = detail_xp.xpath("//*[@id='js_content']//text()") # 清洗、拼接文本 content_clean = [text.strip() for text in content_element if text.strip()] return '\n'.join(content_clean)

四、如何运行?

  1. 按上面说的,配置好wechat_config_new.json文件。需要更新cookie和token。
  2. 安装依赖:pip install requests pandas lxml openpyxl
  3. 运行主函数main(),坐等Excel文件生成即可。

程序会自动帮你:搜索公众号 -> 遍历所有分页 -> 逐篇下载正文 -> 保存到表格。

五、说明

需要本文完整源码的小伙伴,我都放在了与此号同名的公众号里,大家自行获取。

持续分享Python干货中!更多爬虫源码干货,请前往主页查看~

Read more

基于腾讯云HAI + DeepSeek快速设计自己的个人网页

基于腾讯云HAI + DeepSeek快速设计自己的个人网页

前言:通过结合腾讯云HAI 强大的云端运算能力与DeepSeek先进的 AI技术,本文介绍高效、便捷且低成本的设计一个自己的个人网页。你将了解到如何轻松绕过常见的技术阻碍,在腾讯云HAI平台上快速部署DeepSeek模型,仅需简单几步,就能获取一个包含个人简介、技能特长、项目经历及联系方式等核心板块的响应式网页。 目录 一、DeepSeek模型部署在腾讯云HAI 二、设计个人网页 一、DeepSeek模型部署在腾讯云HAI 把 DeepSeek 模型部署于腾讯云 HAI,用户便能避开官网访问限制,直接依托腾讯云 HAI 的超强算力运行 DeepSeek-R1 等模型。这一举措不仅降低了技术门槛,还缩短了部署时间,削减了成本。尤为关键的是,凭借 HAI 平台灵活且可扩展的特性,用户能够依据自身特定需求定制专属解决方案,进而更出色地适配特定业务场景,满足各类技术要求 。 点击访问腾讯云HAI控制台地址: 算力管理 - 高性能应用服务 - 控制台 腾讯云高性能应用服务HAI已支持DeepSeek-R1模型预装环境和CPU算力,只需简单的几步就能调用DeepSeek - R1

By Ne0inhk
如何通过 3 个简单步骤在 Windows 上本地运行 DeepSeek

如何通过 3 个简单步骤在 Windows 上本地运行 DeepSeek

它是免费的——社区驱动的人工智能💪。         当 OpenAI 第一次推出定制 GPT 时,我就明白会有越来越多的人为人工智能做出贡献,并且迟早它会完全由社区驱动。         但从来没有想过它会如此接近😂让我们看看如何在 Windows 机器上完全免费使用第一个开源推理模型!  步骤 0:安装 Docker 桌面         我确信很多人已经安装了它,所以可以跳过,但如果没有 — — 这很简单,只需访问Docker 的官方网站,下载并运行安装 👍         如果您需要一些特定的设置,例如使用 WSL,那么有很多指导视频,请查看!我将继续下一步。 步骤 1:安装 CUDA 以获得 GPU 支持         如果您想使用 Nvidia 显卡运行 LLM,则必须安装 CUDA 驱动程序。(嗯……是的,它们需要大量的计算能力)         打开CUDA 下载页面,

By Ne0inhk
在 VSCode 中本地运行 DeepSeek,打造强大的私人 AI

在 VSCode 中本地运行 DeepSeek,打造强大的私人 AI

本文将分步向您展示如何在本地安装和运行 DeepSeek、使用 CodeGPT 对其进行配置以及开始利用 AI 来增强您的软件开发工作流程,所有这些都无需依赖基于云的服务。  步骤 1:在 VSCode 中安装 Ollama 和 CodeGPT         要在本地运行 DeepSeek,我们首先需要安装Ollama,它允许我们在我们的机器上运行 LLM,以及CodeGPT,它是集成这些模型以提供编码辅助的 VSCode 扩展。 安装 Ollama Ollama 是一个轻量级平台,可以轻松运行本地 LLM。 下载Ollama 访问官方网站:https://ollama.com * 下载适合您的操作系统(Windows、macOS 或 Linux)的安装程序。 * 验证安装 安装后,打开终端并运行: ollama --version  如果 Ollama 安装正确,

By Ne0inhk
DeepSeek-R1是真码农福音?我们问了100位开发者……

DeepSeek-R1是真码农福音?我们问了100位开发者……

从GitHub Copilot到DeepSeek-R1,AI编程工具正在引发一场"效率革命",开发者们对这些工具的期待与质疑并存。据Gartner预测,到2028年,将有75%的企业软件工程师使用AI代码助手。 眼看着今年国产选手DeepSeek-R1凭借“深度思考”能力杀入战场,它究竟是真码农福音还是需要打补丁的"潜力股"? ZEEKLOG问卷调研了社区内来自全栈开发、算法工程师、数据工程师、前端、后端等多个技术方向的100位开发者(截止到2月25日),聚焦DeepSeek-R1的代码生成效果、编写效率、语法支持、IDE集成、复杂代码处理等多个维度,一探DeepSeek-R1的开发提效能力。 代码生成效果:有成效但仍需提升 * 代码匹配比例差强人意 在代码生成与实际需求的匹配方面,大部分开发者(58人)遇到生成代码与实际需求完全匹配无需修改的比例在40%-70%区间,12人遇到代码匹配比例在70%-100%这样较高的区间。 然而,有30人代码匹配比例低于40%。这说明DeepSeek-R1在代码生成方面有一定效果,但在部分复杂或特定场景下,仍有很大的提升空间。

By Ne0inhk