JAVA API (三):从基础爬虫构建到带条件数据提取 —— 详解 URL、正则与爬取策略

JAVA API (三):从基础爬虫构建到带条件数据提取 —— 详解 URL、正则与爬取策略

个人主页-爱因斯晨

文章专栏-Java学习

相关文章:API (一)

相关文章:API(二)

持续努力中,感谢支持
在这里插入图片描述

一、爬虫基础

(一)爬虫的基本概念

  • 定义:爬虫是按照一定规则自动抓取网络信息的程序,在 Java 环境下,可借助URLHttpURLConnection等 API 来实现。
  • 应用场景:广泛应用于数据采集,如电商平台的价格监控、各类新闻的聚合;还可用于信息分析,如舆情监测等。

(二)Java 实现简单爬虫的步骤

建立网络连接:利用URL类确定目标网页的地址,再通过openConnection()方法获取HttpURLConnection对象。

URL url =newURL("https://example.com");HttpURLConnection conn =(HttpURLConnection) url.openConnection();

设置请求参数:明确请求方式(GET/POST)以及超时时间等参数。

conn.setRequestMethod("GET"); conn.setConnectTimeout(5000);

获取响应数据:通过输入流读取网页的内容,并将其转换为字符串进行处理。

InputStream in = conn.getInputStream();BufferedReader br =newBufferedReader(newInputStreamReader(in));String line;StringBuilder sb =newStringBuilder();while((line = br.readLine())!=null){ sb.append(line);}

数据解析与提取:结合字符串处理方法或者正则表达式,从网页源码中提取出目标信息,如链接、文本内容等。

(三)爬虫的核心 API

  • URL:代表统一资源定位符,主要功能是标识网络资源的地址。
  • HttpURLConnection:用于发送 HTTP 请求和接收响应,支持设置请求头、获取响应码等操作。
  • 输入流相关类(InputStreamBufferedReader):这些类的作用是读取网络数据。

二、带条件爬取与贪婪爬取

(一)带条件爬取

  • 定义:按照特定规则对目标数据进行筛选,避免无差别地抓取无关信息,从而提高爬取效率。
  • 实现方式:
  • 基于标签筛选:例如只提取<a>标签中的链接,或者<div>中的文本内容。
  • 基于内容关键词:通过字符串的contains()方法或者正则表达式,过滤出包含指定关键词的数据。
  • 示例:爬取网页中所有包含 “Java” 关键词的标题
Pattern pattern =Pattern.compile("<title>(.*?)</title>");Matcher matcher = pattern.matcher(htmlContent);while(matcher.find()){String title = matcher.group(1);if(title.contains("Java")){System.out.println(title);}}

(二)贪婪爬取与非贪婪匹配

  • 贪婪匹配:正则表达式在默认情况下,会尽可能匹配最长的字符串。比如,用.*匹配<div>content1</div>``<div>content2</div>时,会从第一个<div>一直匹配到最后一个</div>
  • 非贪婪匹配:在量词后添加?可实现非贪婪匹配,即尽可能匹配最短的字符串。例如,.*?能够分别匹配两个<div>标签内的内容。
  • 对比示例:
  • 正则表达式"<div>(.*)</div>"(贪婪):匹配结果为 “content1content2”
  • 正则表达式"<div>(.*?)</div>"(非贪婪):匹配结果为 “content1” 和 “content2”

三、正则表达式的核心方法

(一)正则表达式基础语法

  • 常用元字符:.(可匹配任意字符)、*(匹配前导字符 0 次或多次)、+(匹配前导字符 1 次或多次)、?(匹配前导字符 0 次或 1 次)、()(用于分组)等。
  • 预定义字符类:\d(匹配数字)、\w(匹配字母、数字、下划线)、\s(匹配空白字符)等。

(二)Java 中处理正则的两个核心类

Pattern 类:

表示编译后的正则表达式,可通过compile()方法创建实例。

Pattern pattern =Pattern.compile("\\d+");// 匹配1个或多个数字
Matcher 类:

用于对字符串进行匹配操作,常用方法包括:

Matcher matcher = pattern.matcher("abc123def456");while(matcher.find()){System.out.println(matcher.group());// 输出:123、456}
  • find():查找下一个匹配的子序列。
  • group():返回当前匹配的子序列(需要与find()配合使用)。
  • matches():判断整个字符串是否完全匹配正则表达式。

四、实战注意事项

反爬机制规避:

设置合理的请求间隔,可使用Thread.sleep()实现;添加请求头来模拟浏览器,例如设置User-Agent

conn.setRequestProperty("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64)");

正则表达式效率优化:

避免使用过度复杂的表达式,对于频繁使用的正则,提前将其编译为Pattern实例,这样可实现复用,减少性能消耗。

合法性与道德规范:

爬取数据时,需遵守网站的robots.txt协议,避免侵犯隐私或者引发法律风险。

Read more

C++ vector容器底层深度剖析与模拟实现

C++ vector容器底层深度剖析与模拟实现

🔥近津薪荼:个人主页 🎬个人专栏:《c语言基础知识详解》《c++基础知识详解》 ✨每个优秀的人, 都有一段沉默的时光, ❄️那段时光是付出了很多努力, 却得不到结果的日子,我们把它叫做扎根, ⭐️祝您也祝我早日破土而出,巨木参天。 简介:本文主要以手打代码的方式来实现vector的各接口功能,带大家深入了解vector的底层原理~ 目录 1 模板的使用说明 2 vector深度剖析及模拟实现 2.1 vector的成员变量 2.2 构造函数 2.2.1 指定大小和初始值的构造函数 2.2.2 迭代器范围构造函数 2.2.3 拷贝构造函数(现代写法) 2.3 赋值运算符重载 2.4 容量相关操作 2.4.1 reserve

By Ne0inhk
Java Web web新能源充电系统系统源码-SpringBoot2+Vue3+MyBatis-Plus+MySQL8.0【含文档】

Java Web web新能源充电系统系统源码-SpringBoot2+Vue3+MyBatis-Plus+MySQL8.0【含文档】

💡实话实说: C有自己的项目库存,不需要找别人拿货再加价。 摘要 随着全球能源结构的转型和新能源汽车的普及,充电基础设施的建设成为推动行业发展的关键环节。传统充电系统存在效率低、管理不便、用户体验差等问题,亟需通过智能化手段进行优化。新能源充电系统通过整合物联网、云计算等技术,实现充电桩的远程监控、智能调度和用户便捷操作,为新能源汽车用户提供高效、安全的充电服务。该系统不仅提升了充电设施的利用率,还通过数据分析优化了能源分配,降低了运营成本。关键词:新能源充电系统、充电桩、物联网、云计算、智能化。 本系统基于SpringBoot2框架构建后端服务,采用Vue3作为前端开发框架,结合MyBatis-Plus实现数据持久化操作,MySQL8.0作为数据库存储数据。系统功能包括用户管理、充电桩管理、订单管理、支付管理和数据分析模块。用户可通过移动端或Web端实时查询充电桩状态、预约充电、在线支付,管理员则能监控设备运行状态、统计运营数据并生成报表。系统通过RESTful API实现前后端分离,确保高内聚低耦合的架构设计,同时利用Redis缓存提升响应速度。关键词:SpringBoo

By Ne0inhk
Java 享元模式:打造高扩展游戏角色模型,优化 MMO 游戏开发

Java 享元模式:打造高扩展游戏角色模型,优化 MMO 游戏开发

🧑 博主简介:ZEEKLOG博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/literature?__c=1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,精通Java编程,高并发设计,Springboot和微服务,熟悉Linux,ESXI虚拟化以及云原生Docker和K8s,热衷于探索科技的边界,并将理论知识转化为实际应用。保持对新技术的好奇心,乐于分享所学,希望通过我的实践经历和见解,启发他人的创新思维。在这里,我希望能与志同道合的朋友交流探讨,共同进步,一起在技术的世界里不断学习成长。 技术合作请加本人wx(注明来自ZEEKLOG):foreast_sea

By Ne0inhk
飞算JavaAI:从写不出代码到丝滑开发,飞算JavaAI把小白从编程深渊捞进了正轨---它都让我怀疑自己是不是多余的!

飞算JavaAI:从写不出代码到丝滑开发,飞算JavaAI把小白从编程深渊捞进了正轨---它都让我怀疑自己是不是多余的!

开篇介绍 * 对于很多初学者来说,编程是一项既有趣又充满挑战的任务。面对复杂的代码和繁琐的开发流程,常常会感到无从下手。不过,现在有了飞算JavaAI,这一切都将变得简单起来。 它有啥实用功能呢? 比如: * 写一半不知道怎么继续?它会自动补全。 * 看不懂别人的代码?它可以一句一句解释。 * 代码报错了?它能提示哪里有问题,并给出修复建议。 * 想加注释又懒得写?它自动生成。 那什么又是飞算JavaAI呢? 飞算JavaAI是一款智能编程助手,它结合了人工智能技术,能够理解你的需求并自动生成高质量的代码。无论你是刚入门的新手,还是有一定基础的开发者,飞算JavaAI都能为你提供全方位的支持,让你的编程工作变得更加高效和有趣。 背景介绍 随着数字化转型的加速推进,软件开发已成为各行各业提升效率与竞争力的重要手段。然而,传统的开发流程复杂、周期长、人力成本高,尤其是在Java这一主流企业级开发语言中,面对庞大的项目体量和复杂的架构设计,开发者常常面临重复劳动多、协作效率低、学习曲线陡峭等问题。 * 因此,飞算JavaAI应运而生。它由国内领先的AI与软件工

By Ne0inhk