用playwright封装一个处理web网页的爬虫,并隐藏自动化特征,自动处理反爬

更多内容请见《爬虫和逆向教程》 - 专栏介绍和目录

文章目录

下面是一个使用 Playwright 封装的、具备反爬对抗能力的网页爬虫Python函数,返回原始 HTML 内容,并重点隐藏自动化特征,避免被检测为 bot。


一、脚本概述

该封装已在多个中等反爬网站(如电商、新闻站)验证有效,能绕过大多数基于 navigator.webdriverchrome 对象、permissions 等的检测。

1.1 脚本对应反爬措施

  1. 移除 navigator.webdriver 标志
  2. 注入真实 User-Agent 和 Accept-Language
  3. 禁用 chrome 对象中的自动化属性(如 cdc_
  4. 设置合理的 viewport、设备比例、语言
  5. 启用 JavaScript 但模拟人类行为(可选延迟)
  6. 使用非 headless 模式或伪装 headless(推荐后者)

1.2 注意事项

  1. 不要频繁请求:即使隐藏了特征,高频访问

Read more

LangChain实战:工具调用+结构化输出,让AI从“聊天“变“干活“

LangChain实战:工具调用+结构化输出,让AI从“聊天“变“干活“

文章目录 * 工具调用(Tool Calling) * 1.Tool创建的三种方式 * 1.1. **直接用 `@tool` 装饰函数** * 1.2. **用 `@tool` + 自定义参数结构(Pydantic)** * 1.3. **继承 `BaseTool` 写类** * 2. 本地自定义工具 * 2.1 定义工具 * 2.2 绑定工具到模型 * 2.3 工具调用流程 * 2.4 AI 响应结构解析 * 3. 第三方工具集成(Tavily搜索([https://www.tavily.com/](https://www.tavily.com/))) * 3.1

【OpenMAIC】技术深度解析:基于多智能体的沉浸式AI课堂

【OpenMAIC】技术深度解析:基于多智能体的沉浸式AI课堂

文章目录 * OpenMAIC技术深度解析:基于多智能体的沉浸式AI课堂 * 一、引言 * 二、项目概述 * 2.1 核心理念 * 2.2 技术栈 * 三、核心架构设计 * 3.1 整体架构 * 3.2 项目结构解析 * 四、核心技术解析 * 4.1 两阶段生成Pipeline * 4.2 多智能体编排(LangGraph) * 4.3 播放引擎 * 4.4 动作执行引擎 * 五、LLM Provider抽象层 * 5.1 多模型支持 * 六、场景类型实现 * 6.1 幻灯片场景 * 6.2 测验场景

OpenClaw 实战:5 分钟用 AI Agent 自动生成规范测试用例并写入 Excel

OpenClaw 实战:5 分钟用 AI Agent 自动生成规范测试用例并写入 Excel

OpenClaw 实战:5 分钟用 AI Agent 自动生成规范测试用例并写入 Excel 一、核心前提 OpenClaw 是轻量级 Agent 框架,核心聚焦: Skill 注册 → 工具选择 → 任务执行 * 没有 Dify 的可视化界面 * 没有知识库、没有复杂工作流 * 代码极简洁、上手极快 * 适合:测试开发 / 有编程能力的测试工程师 一句话定位: OpenClaw = 极简、轻量、只专注做工具调用的小 Agent 引擎 二、环境准备 1. 安装 OpenClaw 及依赖 # 安装 OpenClaw 核心框架 pip install openclaw # Excel 操作

基于Termux的Android平台OpenClaw部署:移动端AI助理实现

基于Termux的Android平台OpenClaw部署:移动端AI助理实现

基于Termux的Android平台OpenClaw部署:移动端AI助理实现 前言 Android作为全球最流行的移动操作系统,拥有庞大的用户基础和丰富的硬件生态。Termux作为Android上的终端模拟器,提供了完整的Linux环境,使得在Android设备上部署OpenClaw成为可能。本文将从环境搭建、性能优化、功耗管理、用户体验等多个维度,详细阐述基于Termux的Android平台OpenClaw部署方案,为移动端AI助理的实现提供完整的技术路线。 这台设备为什么适合跑 OpenClaw 优点 移动设备的便携性 Android设备具有便携性强的特点,可以随身携带,随时使用。OpenClaw部署在Android设备上,可以满足移动办公、现场查询、临时计算等场景需求。相比固定式服务器,Android设备提供了更大的灵活性和便利性。 Termux的Linux环境 Termux提供了完整的Linux环境,包括包管理器、编译工具、运行时环境等。OpenClaw可以在Termux中运行,无需root权限,无需修改系统。Termux的包管理器(pkg)提供了丰富的软件