Java+Selenium 结合代理实现高效爬虫

介绍使用 Java 和 Selenium 构建高效爬虫的方法。通过工厂模式管理 WebDriver 实例，支持多浏览器配置。集成代理功能以规避 IP 限制，包含超时设置、无头模式及通用参数优化。提供爬虫主类示例及代理配置注意事项，提升爬虫稳定性与效率。

孤勇者发布于 2026/3/26更新于 2026/5/1220 浏览

一、前言

在 Web 爬虫技术中，Selenium 作为一款强大的浏览器自动化工具，能够模拟真实用户操作，有效应对 JavaScript 渲染、Ajax 加载等复杂场景。而集成代理服务则能够解决 IP 限制、地域访问限制等问题。本文将详细介绍如何利用 Java+Selenium+ 代理服务实现高效的爬虫系统。

二、Selenium 简介

Selenium 是一个用于 Web 应用程序自动化测试的工具集，它主要用于自动化浏览器操作，可以模拟用户与网页的交互行为，如点击按钮、填写表单、滚动页面等。在爬虫领域，Selenium 特别适合处理那些需要 JavaScript 渲染、需要登录或有反爬措施的网站。

三、环境准备

JDK1.8
Maven 项目管理
相关依赖

<!-- Selenium --><dependency><groupId>org.seleniumhq.selenium</groupId><artifactId>selenium-java</artifactId><version>3.141.59</version></dependency><dependency><groupId>io.github.bonigarcia</groupId><artifactId>webdrivermanager</artifactId><version>5.3.2</version></dependency>

四、代码实现

本系统采用的是工厂模式创建 WebDriver 实例，这样做的好处主要是可以提供统一的创建方法，不管使用那种浏览器都适用，自由配置。其次就是维护方便，浏览器配置变更只需修改工厂类中的相关方法，扩展性也不错，可以轻松添加新的浏览器支持，比如 Opera 或者 Safari 等等。

4.1 创建 WebDriver 工厂类

import io.github.bonigarcia.wdm.WebDriverManager;
import org.openqa.selenium.Proxy;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.chrome.ChromeDriver;
 org.openqa.selenium.chrome.ChromeOptions;
 org.openqa.selenium.edge.EdgeDriver;
 org.openqa.selenium.edge.EdgeOptions;
 org.openqa.selenium.firefox.FirefoxDriver;
 org.openqa.selenium.firefox.FirefoxOptions;
 org.openqa.selenium.remote.CapabilityType;
 org.openqa.selenium.remote.PageLoadStrategy;
 org.slf4j.Logger;
 org.slf4j.LoggerFactory;
 java.util.ArrayList;
 java.util.HashMap;
 java.util.List;
 java.util.Map;
 java.util.concurrent.TimeUnit;


   {
    
          LoggerFactory.getLogger(WebDriverFactory.class);
    
        ; 
        ; 
        ; 
        ; 
    
        ; 
     String proxyHost; 
      proxyPort; 
     String proxyUsername; 
     String proxyPassword; 

    
       { CHROME, EDGE, FIREFOX }

    
     WebDriverFactory  {
        .headless = headless;
         ;
    }

    
     WebDriverFactory  {
        .pageLoadTimeoutSeconds = seconds;
         ;
    }

    
     WebDriverFactory  {
        .scriptTimeoutSeconds = seconds;
         ;
    }

    
     WebDriverFactory  {
        .implicitWaitSeconds = seconds;
         ;
    }

    
     WebDriverFactory  {
        .proxyEnabled = ;
        .proxyHost = host;
        .proxyPort = port;
         ;
    }

    
     WebDriverFactory  {
        .proxyUsername = username;
        .proxyPassword = password;
         ;
    }

    
     WebDriver  {
        (browserType) {
             CHROME:  createChromeDriver();
             EDGE:  createEdgeDriver();
             FIREFOX:  createFirefoxDriver();
            : 
                log.info();
                 createEdgeDriver();
        }
    }

    
     WebDriver  {
        
        WebDriverManager.edgedriver().setup();
            ();
        
        Map<String,Object> edgePrefs =  <>();
        
        edgePrefs.put(, );
        
        List<String> args = getCommonBrowserArgs();
        Map<String,Object> edgeOptions =  <>();
        edgeOptions.put(, args);
        
        options.setCapability(,);
        
        
        options.setPageLoadStrategy(PageLoadStrategy.NORMAL);
        
        options.setCapability(, );
        options.setCapability(, edgeOptions);
        
        options.setCapability(, );
        
        configureProxy(options);
        
            (options);
        
        configureTimeouts(driver);
        log.info();
         driver;
    }

    
     WebDriver  {
        
        WebDriverManager.chromedriver().setup();
            ();
        
        (headless) {
            options.addArguments();
        }
        
        (String arg : getCommonBrowserArgs()) {
            options.addArguments(arg);
        }
        
        options.setPageLoadStrategy(PageLoadStrategy.NORMAL);
        
        configureProxyForChrome(options);
        
            (options);
        
        configureTimeouts(driver);
        log.info();
         driver;
    }

    
     WebDriver  {
        
        WebDriverManager.firefoxdriver().setup();
            ();
        
        (headless) {
            options.addArguments();
        }
        
        configureProxy(options);
        
            (options);
        
        configureTimeouts(driver);
        log.info();
         driver;
    }

    
     List<String>  {
        List<String> args =  <>();
        
        (headless) {
            args.add(); 
            args.add(); 
        }
        
        args.add();
        
        args.add();
        
        args.add();
        
        args.add();
        
        args.add();
        
        args.add();
        
        args.add();
        
        args.add();
        
        args.add();
        
        args.add();
        
        args.add();
        
        args.add();
        
        args.add();
        
        args.add();
        
        args.add();
        
        args.add();
        
        args.add();
        
        args.add();
        
        args.add();
        
        
        args.add();
         args;
    }

    
       {
        (proxyEnabled && proxyHost !=  && !proxyHost.isEmpty() && proxyPort > ) {
             {
                
                String proxyUrl;
                (proxyUsername !=  && !proxyUsername.isEmpty() && proxyPassword != ) {
                    
                    proxyUrl =  + proxyUsername +  + proxyPassword +  + proxyHost +  + proxyPort;
                }  {
                    
                    proxyUrl =  + proxyHost +  + proxyPort;
                }
                
                    ();
                
                proxy.setHttpProxy(proxyUrl);
                proxy.setSslProxy(proxyUrl);
                
                (options  EdgeOptions) {
                    ((EdgeOptions) options).setCapability(CapabilityType.PROXY, proxy);
                }  (options  FirefoxOptions) {
                    ((FirefoxOptions) options).setCapability(CapabilityType.PROXY, proxy);
                }
                log.info(, proxyHost, proxyPort);
            } (Exception e) {
                log.error(, e.getMessage());
            }
        }
    }

    
       {
        (proxyEnabled && proxyHost !=  && !proxyHost.isEmpty() && proxyPort > ) {
             {
                
                String proxyUrl;
                (proxyUsername !=  && !proxyUsername.isEmpty() && proxyPassword != ) {
                    
                    proxyUrl =  + proxyUsername +  + proxyPassword +  + proxyHost +  + proxyPort;
                }  {
                    
                    proxyUrl =  + proxyHost +  + proxyPort;
                }
                
                    ();
                proxy.setHttpProxy(proxyUrl);
                proxy.setSslProxy(proxyUrl);
                
                options.setCapability(CapabilityType.PROXY, proxy);
                log.info(, proxyHost, proxyPort);
            } (Exception e) {
                log.error(, e.getMessage());
            }
        }
    }

    
       {
        
        driver.manage().timeouts().pageLoadTimeout(pageLoadTimeoutSeconds, TimeUnit.SECONDS);
        
        driver.manage().timeouts().setScriptTimeout(scriptTimeoutSeconds, TimeUnit.SECONDS);
        
        driver.manage().timeouts().implicitlyWait(implicitWaitSeconds, TimeUnit.SECONDS);
        log.debug(, pageLoadTimeoutSeconds, scriptTimeoutSeconds, implicitWaitSeconds);
    }
}

import org.openqa.selenium.By; import org.openqa.selenium.WebDriver; import org.openqa.selenium.WebElement; import org.openqa.selenium.support.ui.ExpectedConditions; import org.openqa.selenium.support.ui.WebDriverWait; import org.slf4j.Logger; import org.slf4j.LoggerFactory; import java.util.List; /** * Selenium 爬虫示例主类 * 演示如何使用 WebDriverFactory 创建浏览器实例并进行网页爬取 */ public class SeleniumCrawler { private static final Logger log = LoggerFactory.getLogger(SeleniumCrawler.class); public static void main(String[] args) { // 推荐使用代理服务 String proxyHost = ""; // 代理隧道主机 int proxyPort = 15818; // 端口，根据实际情况修改 String proxyUsername = "yourUsername"; // 替换为您的代理用户名 String proxyPassword = "yourPassword"; // 替换为您的代理密码 // 创建 WebDriver 工厂实例，配置爬虫参数 // 使用构建器模式，代码可读性强，配置灵活 WebDriverFactory factory = new WebDriverFactory() .withHeadless(false) // 设置为 false 可以看到浏览器界面，方便调试 .withPageLoadTimeout(30) // 页面加载超时设置为 30 秒 .withScriptTimeout(30) // 脚本执行超时设置为 30 秒 .withImplicitWait(10) // 查找元素隐式等待 10 秒 .withProxy(proxyHost, proxyPort) // 设置代理的主机和端口 .withProxyAuth(proxyUsername, proxyPassword); // 设置代理认证信息 WebDriver driver = null; try { // 创建 Edge 浏览器实例，也可以选择 Chrome 或 Firefox log.info("正在初始化 WebDriver..."); driver = factory.createWebDriver(WebDriverFactory.BrowserType.EDGE); // 开始爬虫任务 crawlWebsite(driver); } catch(Exception e) { // 异常处理，记录详细错误信息便于排错 log.error("爬虫执行出错：{}", e.getMessage(), e); } finally { // 确保 WebDriver 正确关闭，避免资源泄露 if(driver != null) { driver.quit(); log.info("WebDriver 已关闭，爬虫任务结束"); } } } /** * 爬虫核心逻辑，可根据实际需求扩展 * * @param driver 已配置好的 WebDriver 实例 * @throws InterruptedException 如果线程休眠被中断 */ private static void crawlWebsite(WebDriver driver) throws InterruptedException { // 访问目标网站 log.info("开始访问目标网站"); driver.get("https://www.baidu.com"); log.info("网页标题：{}", driver.getTitle()); // 显式等待某个元素出现，确保页面加载完成 // 比简单的 Thread.sleep 更智能 WebDriverWait wait = new WebDriverWait(driver, 10); wait.until(ExpectedConditions.presenceOfElementLocated(By.tagName("body"))); // 获取页面内容示例：提取所有链接 log.info("开始提取页面链接"); List<WebElement> links = driver.findElements(By.tagName("a")); log.info("共发现{}个链接", links.size()); // 处理提取到的链接 for(WebElement link : links) { String text = link.getText().trim(); String href = link.getAttribute("href"); // 只记录有效链接 if(href != null && !href.isEmpty()) { log.info("链接：{} -> {}", text.isEmpty() ? "[无文本]" : text, href); } } // 模拟更多爬虫操作，例如点击某个元素、填写表单等 // 这里作为示例，只是简单等待 log.info("等待页面进一步处理..."); Thread.sleep(2000); // 如果需要，可以继续访问更多页面 // driver.get("https://www.another-site.com"); // ... log.info("爬虫任务完成"); } }

Java+Selenium 结合代理实现高效爬虫

一、前言

二、Selenium 简介

三、环境准备

四、代码实现

4.1 创建 WebDriver 工厂类

4.2 创建爬虫主类

4.3 配置代理的注意事项

五、总结与展望

更多推荐文章

相关免费在线工具

Java+Selenium 结合代理实现高效爬虫

一、前言

二、Selenium 简介

三、环境准备

四、代码实现

4.1 创建 WebDriver 工厂类

4.2 创建爬虫主类

4.3 配置代理的注意事项

五、总结与展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具