Python 小红书数据采集工具实现指南 | 极客日志

PythonAI算法

Python 小红书数据采集工具实现指南

介绍基于 Python 的小红书数据采集工具。涵盖环境配置、认证机制（二维码/验证码）、核心采集接口（搜索/用户/评论）、数据存储解析、反爬优化（签名/代理/行为模拟）及合规原则。通过动态签名生成和分布式队列解决反爬难题，适用于竞品分析、趋势预测及舆情监控场景。

嘘发布于 2026/3/26更新于 2026/6/428 浏览

Python 小红书数据采集工具实现指南

在数字化营销与市场研究领域，高质量的社交媒体数据已成为决策核心。然而，平台反爬机制升级与复杂的 API 签名逻辑，使得传统采集工具频频失效。本文将系统介绍一款基于 Python 开发的小红书数据采集工具，通过模块化设计与智能反爬策略，帮助开发者突破数据获取瓶颈，构建稳定高效的采集系统。

解析数据采集痛点与工具核心价值

当前小红书数据采集面临三大核心挑战：动态签名机制导致的请求拦截、复杂认证流程带来的访问限制、高频请求引发的 IP 封锁。这款 Python 工具通过三层技术架构解决上述问题：请求层采用动态签名生成算法，认证层实现多渠道登录方案，控制层内置智能流量调节机制。与传统采集工具相比，其创新点在于：

自适应签名系统：实时生成符合平台要求的请求签名，响应签名算法变化
分布式请求队列：基于协程的并发控制，支持每秒 30-50 次稳定请求
多维度数据解析：内置 JSON 结构转换与多媒体资源提取功能

环境配置指南：从开发环境到生产部署

开发环境搭建

推荐使用 Python 3.8+ 版本，通过虚拟环境隔离项目依赖：

# 创建虚拟环境
python -m venv venv
source venv/bin/activate  # Linux/Mac
venv\Scripts\activate     # Windows
# 安装依赖
pip install -r requirements.txt

源码部署方案

如需获取最新功能，可通过源码编译安装：

git clone https://gitcode.com/gh_mirrors/xh/xhs
cd xhs
python setup.py install

核心配置参数

创建配置文件 config.ini，设置关键参数：

[request]
timeout = 15
retry_times = 3
proxy_pool = http://proxy1:port,http://proxy2:port

[auth]
cookie_storage_path = ./cookies
qrcode_login_timeout = 300

[spider]
crawl_interval = 1.2
max_concurrent = 10

实施路径：构建完整数据采集流程

1. 初始化采集客户端

通过 XHS 类创建实例，配置基础参数：

from xhs  XHS


xhs = XHS(
    timeout=,
    proxies={: },
    sign= uri, data: custom_sign(uri, data)  
)


xhs.cookie =

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 二维码登录
qr_code = xhs.get_qrcode()
qr_code.save("qrcode.png")  # 保存二维码图片
print("请扫描二维码登录")
login_status = xhs.check_qrcode(qr_code['qr_id'], qr_code['code'])

# 手机验证码登录
xhs.send_code(phone="13800138000")
code = input("请输入验证码:")
xhs.login_code(phone="13800138000", mobile_token=code)

notes = xhs.get_note_by_keyword(
    keyword="美食推荐",
    page=1,
    page_size=20,
    sort=SearchSortType.HOT  # 按热度排序
)

user_notes = xhs.get_user_all_notes(
    user_id="user123456",
    crawl_interval=1  # 控制请求间隔
)

comments = xhs.get_note_all_comments(
    note_id="note67890",
    crawl_interval=0.5
)

# 解析笔记数据
for note in notes:
    structured_data = {
        "note_id": note["id"],
        "title": note["title"],
        "content": note["desc"],
        "author_id": note["user"]["id"],
        "stats": {
            "likes": note["stats"]["like_count"],
            "comments": note["stats"]["comment_count"],
            "shares": note["stats"]["share_count"]
        },
        "images": xhs.get_imgs_url_from_note(note)
    }
    # 存储到数据库或 JSON 文件

# 获取竞品所有笔记
competitor_notes = xhs.get_user_all_notes(user_id="competitor_id")

# 内容主题分析
from collections import Counter
topics = [note["topics"][0]["name"] for note in competitor_notes if note["topics"]]
topic_counts = Counter(topics)
print("热门主题分布:", topic_counts.most_common(10))

import pandas as pd

# 按时间维度采集数据
trend_data = []
for date in date_range(start_date, end_date):
    notes = xhs.get_note_by_keyword(
        keyword="夏季穿搭",
        sort=SearchSortType.NEWEST
    )
    trend_data.append({
        "date": date,
        "count": len(notes),
        "avg_likes": sum(n["stats"]["like_count"] for n in notes)/len(notes)
    })

# 生成趋势图表
pd.DataFrame(trend_data).plot(x="date", y="count")

# 监听特定关键词
while True:
    latest_notes = xhs.get_note_by_keyword(
        keyword="品牌名称",
        sort=SearchSortType.NEWEST,
        page_size=10
    )
    for note in latest_notes:
        comments = xhs.get_note_comments(note_id=note["id"])
        for comment in comments:
            if "负面" in comment["content"]:
                send_alert(comment)  # 触发预警机制
    time.sleep(300)  # 每 5 分钟检查一次

def custom_sign(uri, data):
    ctime = int(time.time() * 1000)  # 实现自定义签名逻辑
    return generate_signature(uri, data, ctime, a1, b1)

from itertools import cycle
proxy_list = ["http://proxy1:port", "http://proxy2:port"]
proxy_cycle = cycle(proxy_list)

# 每次请求更换代理
def rotate_proxy():
    return {"http": next(proxy_cycle)}

xhs = XHS(proxies=rotate_proxy())

# 随机 UA 生成
from fake_useragent import UserAgent
ua = UserAgent()
xhs = XHS(user_agent=ua.random)

# 随机请求间隔
import random
def random_interval():
    return random.uniform(0.8, 2.0)

from tenacity import retry, stop_after_attempt, wait_exponential

@retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=2, max=10))
def safe_request(note_id):
    return xhs.get_note_by_id(note_id)

def compliance_check(url):
    # 检查是否为允许采集的 URL
    allowed_domains = ["xiaohongshu.com/api", "xiaohongshu.com/notes"]
    return any(domain in url for domain in allowed_domains)

Python 小红书数据采集工具实现指南

Python 小红书数据采集工具实现指南

解析数据采集痛点与工具核心价值

环境配置指南：从开发环境到生产部署

开发环境搭建

源码部署方案

核心配置参数

实施路径：构建完整数据采集流程

1. 初始化采集客户端

更多推荐文章

相关免费在线工具

2. 认证机制实现

3. 核心数据采集接口

关键词搜索采集

用户内容批量获取

评论数据深度采集

4. 数据存储与解析

场景应用：三大业务价值落地

竞品内容策略分析

消费趋势预测系统

舆情监控与风险预警

进阶优化：提升采集效率与稳定性

请求签名机制深度解析

反爬策略优化

代理池动态切换

用户行为模拟

故障排查手册

常见错误及解决方案

数据伦理规范与合规采集原则

更多推荐文章

相关免费在线工具

Python 小红书数据采集工具实现指南

Python 小红书数据采集工具实现指南

解析数据采集痛点与工具核心价值

环境配置指南：从开发环境到生产部署

开发环境搭建

源码部署方案

核心配置参数

实施路径：构建完整数据采集流程

1. 初始化采集客户端

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 认证机制实现

3. 核心数据采集接口

关键词搜索采集

用户内容批量获取

评论数据深度采集

4. 数据存储与解析

场景应用：三大业务价值落地

竞品内容策略分析

消费趋势预测系统

舆情监控与风险预警

进阶优化：提升采集效率与稳定性

请求签名机制深度解析

反爬策略优化

代理池动态切换

用户行为模拟

故障排查手册

常见错误及解决方案

数据伦理规范与合规采集原则

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具