网络机器人(爬虫)-入门

优质文章学习记录

07 Apr 2026 — 4 min read

爬虫：也称网络爬虫(网络机器人),是一种按照一定的预设规则，自动浏览并抓取网络数据的程序或脚本

开始 ---> 发送Http请求 ---> 解析结果提取数据---->数据处理(清洗)-->数据存储 --->结束

数据清洗：是指对采集到的原始数据进行处理，修正，转换和标准化的过程，目的是让数据变得数据变得规范，准确

robots协议：

robots协议也称为爬虫协议，爬虫规则，是指网站根目录下存放的一份文本文件robots.txt,用于告诉爬虫那些页面可以抓取，哪些页面不能抓取。(君子协议)

User-Agent: 用户代理，通过该请求头确认爬虫的类型

Disallow: 禁止访问的资源

Allow: 运行访问的资源

Sitemap: 网站地图,帮助爬虫更高效地获取网站内容

Craw-delay: 爬取间隔时间，避免频繁访问造成网站地压力过大

怎么查看每个网站的robots协议

在每个网址后面加上/robots.txt

练习：获取TIOBE编程语言排行榜单

1. 查看TIOBE网站的robots.txt文件，明确资源获取的规则

2. 安装requests库,用于发送网络请求(pip install requests)

3. 编写python代码，访问TIOBE网站，获取数据

代码示例import requests # 定义url target_url = "http://www.tiobe.com/tiobe-index/" # 发送请求，获取数据 response = requests.get(target_url) # 输出到控制台 print(response.text) 这里提一嘴，所有的网络请求都是get请求

另外返回的是页面的前端代码，接下来就是解析结果处理数据

处理前端数据前先说明一下网页结构也就是前端的基础知识

一个网页是由三个部分组成的，分别是：HTML,CSS，JS

HTML: 超文本语言，由一堆预设的标签构成。HTML负责网页的结构(页面元素和内容)

CSS: 层叠样式表。CSS负责网页的表现(页面元素的外观，位置等样式，如颜色，大小等)

JS: 全称：JavaScript，负责网页的行为(交互效果)

我们要抓取的是网页当中的内容也就是HTML控制页面的内容

HTML：超文本标记语言。

超文本：超越了文本的限制，比普通文本更强大。除了文字信息，还可以定义图片，音频，视频等内容

标记语言：由标签“<标签名>”构成的语言

HTML标签都是预定义好的。例如：使用<h1>展示标题，使用<img>展示图片，使用<video>展示视频。

HTML代码直接在浏览器中运行，HTML标签由浏览器解析

接下来回归正轨

如何解析返回的前端代码，那就是lxml

啥事lxml

lxml: 是一个高性能的HTML/XML文档的解析库，支持Xpath语法来解析和获取网页数据

Xpath语法：

一种在HTML/XML文档中导航或定位元素的查询语言，让你能够准确的定位文档中的特定元素，属性或文本

那么怎么从这个图片中解析数据

response = requests.get(target_url) document = html.fromstring(response.text) #解析数据 th_list=document.xpath("//table[@id='top20']/thead/tr/th/text()") print(th_list)

怎么讲每个tr单独占一行打印出来

tr_list=document.xpath("//table[@id='top20']/tbody/tr") for tr in tr_list: td_list=tr.xpath("./td/text()") print(td_list)

(二)Stable Diffusion 3.5硬件准备与环境配置 —— 低配显卡也能跑大模型

随着 Stable Diffusion 3.5 (SD 3.5) 的发布，生成式 AI 的门槛再次降低。虽然其 Large 版本拥有高达 81 亿的参数量，但通过合理的量化选择、显存管理技巧以及操作系统级的优化，即便是在 8GB 或 12GB 显存的消费级显卡上，也能获得极佳的生成体验。 2.1 显存容量与量化选择指南在本地运行 SD 3.5 时，显存 (VRAM) 是最核心的硬件指标。SD 3.5 Large 模型在原生精度 (FP16/BF16) 下，通常需要约 18–19 GB 的显存才能完整加载。这意味着如果你想体验不经过性能削减的原生模型，

【GitHub开源AI精选】WhisperX：70倍实时语音转录、革命性词级时间戳与多说话人分离技术

系列篇章💥 No.文章1【GitHub开源AI精选】LLM 驱动的影视解说工具：Narrato AI 一站式高效创作实践2【GitHub开源AI精选】德国比勒费尔德大学TryOffDiff——高保真服装重建的虚拟试穿技术新突破3【GitHub开源AI精选】哈工大（深圳）& 清华力作 FilmAgent：剧本自动生成 + 镜头智能规划，开启 AI 电影制作新时代4【GitHub开源AI精选】Lumina - Image 2.0 文生图模型，以小参数量实现高分辨率多图生成新突破5【GitHub开源AI精选】探索 Mobile-Agent：X-PLUG 推出的创新型移动智能操作代理6【GitHub开源AI精选】吴恩达团队开源VisionAgent：用自然语言开启计算机视觉新时代7【GitHub开源AI精选】Oumi：一站式AI开发平台，涵盖训练、评估与部署全流程8【GitHub开源AI精选】深入剖析RealtimeSTT：开源实时语音转文本库的强大功能与应用9【GitHub开源AI精选】PodAgent：多智能体协作播客生成框架，

揭秘 AIGC 背后的技术：GPT、BERT 与 Transformer 模型的工作原理

一、引言 AIGC 的崛起与重要性人工智能生成内容（AIGC）已经不再是未来的技术，它正以惊人的速度渗透到各行各业，重新定义了内容创作、媒体生产、甚至人类认知的边界。从深度学习到大规模自然语言处理，AIGC 的崛起代表着一种新型的智能化革命，其核心技术依赖于 Transformer 架构、GPT 和 BERT 等模型。这些技术不仅推动了自然语言处理（NLP）的进步，还在自动化写作、代码生成、艺术创作等多个领域取得了突破性进展。 AIGC 之所以成为技术热潮，背后是其颠覆性的效率提升和创新应用。比如，通过 GPT，我们可以在几秒钟内生成一篇文章，而传统写作过程可能需要几小时，甚至几天。这种技术的普及，不仅大大降低了内容创作的门槛，还为个体创作者、企业甚至国家带来了前所未有的生产力提升。本文目的与结构概述本文将深入探讨 AIGC 背后的核心技术——Transformer、GPT 和 BERT，带你一步步了解它们的架构原理、训练机制及实际应用。

5分钟精通llama-cpp-python：从安装到AI应用实战全解析

5分钟精通llama-cpp-python：从安装到AI应用实战全解析【免费下载链接】llama-cpp-pythonPython bindings for llama.cpp 项目地址: https://gitcode.com/gh_mirrors/ll/llama-cpp-python 想要在个人电脑上轻松运行大语言模型？llama-cpp-python作为专为开发者设计的Python绑定库，为您提供了一条快速接入llama.cpp推理引擎的便捷通道。本指南将带您深入掌握这个强大的AI工具包，从基础安装到高级功能应用，一站式解决所有技术难题！🚀 🎯 环境准备与系统兼容性在开始安装llama-cpp-python之前，请确保您的环境满足以下要求：基础环境配置： * Python 3.8或更高版本 * C编译器（Linux：gcc/clang，Windows：Visual Studio/Mingw，MacOS：Xcode） * 充足的内存和存储空间平台特定注意事项： * Windows用户：建议使用Visual Studio构建工具 * MacO

Read more

(二)Stable Diffusion 3.5硬件准备与环境配置 —— 低配显卡也能跑大模型

【GitHub开源AI精选】WhisperX：70倍实时语音转录、革命性词级时间戳与多说话人分离技术

揭秘 AIGC 背后的技术：GPT、BERT 与 Transformer 模型的工作原理

5分钟精通llama-cpp-python：从安装到AI应用实战全解析