Rust算法

基于 Rust 实现 GitHub Trending 热门仓库爬虫

使用 Rust 结合 reqwest 和 scraper 库构建异步爬虫，抓取 GitHub Trending 页面数据并解析为 JSON。通过 tokio 运行时处理并发，anyhow 管理错误，最终输出包含仓库名、描述及星标数的结构化文件。代码经过优化，增强了 CSS 选择器的稳定性和异常容错能力，适合学习 Rust 网络编程与 HTML 解析实战。

嘘发布于 2026/3/26更新于 2026/7/2030 浏览

本次实战将使用 Rust 构建一个异步爬虫，目标是抓取 GitHub Trending 页面中热门 Rust 仓库的详细信息（包括仓库名、描述、星标数、作者等），并将结果导出为 JSON 文件。代码重点优化了错误处理机制与 CSS 选择器的稳定性，确保在 GitHub 页面结构微调时仍能正常运行。

技术选型

HTTP 请求：reqwest（Rust 最流行的异步 HTTP 客户端）
HTML 解析：scraper（支持 CSS 选择器，轻量高效）
JSON 序列化：serde + serde_json（标准序列化库）
异步运行时：tokio（Rust 异步编程的事实标准）
日志与错误：env_logger + anyhow（简化调试与错误传递）

项目结构

github-trending-crawler/
├── Cargo.toml      # 依赖配置
├── src/
│   └── main.rs     # 核心逻辑
└── trending_repos.json # 输出结果

环境搭建与依赖配置

首先初始化项目并进入目录：

cargo new github-trending-crawler
cd github-trending-crawler

接着在 Cargo.toml 中添加必要的依赖。这里推荐使用较新的稳定版本，具体可参考 crates.io 查询最新信息：

[package]
name = "github-trending-crawler"
version = "0.1.0"
edition = "2021"
description = "A crawler to fetch GitHub Trending Rust repositories"
license = "MIT"

[dependencies]
# HTTP 客户端（异步）
reqwest = { version = "0.12", features = ["json", "rustls-tls"] }
# HTML 解析（CSS 选择器）
scraper = "0.18"
# JSON 序列化/反序列化
 = { version = , features = [] }
 = 

 = { version = , features = [] }

 = 
 = 

 =

use anyhow::{Context, Result};
use log::info;
use reqwest::Client;
use scraper::{Html, Selector};
use serde::Serialize;
use std::fs::File;
use std::path::Path;

fn init_logger() {
    env_logger::Builder::from_env(env_logger::Env::default().default_filter_or("info")).init();
}

#[derive(Debug, Serialize)]
struct GithubRepo {
    author: String,
    name: String,
    description: Option<String>,
    stars: String,
    forks: String,
    today_stars: String,
    url: String,
}

async fn fetch_trending_page(client: &Client) -> Result<String> {
    let url = "https://github.com/trending/rust?since=daily";
    info!("Fetching page: {}", url);

    let response = client
        .get(url)
        .header(
            "User-Agent",
            "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36",
        )
        .send()
        .await
        .context(format!("Failed to request URL: {}", url))?;

    if !response.status().is_success() {
        return Err(anyhow::anyhow!("Request failed with status: {}", response.status()));
    }

    let html = response.text().await.context("Failed to read response body")?;
    info!("Successfully fetched page (size: {} bytes)", html.len());
    Ok(html)
}

fn parse_repos(html: &str) -> Result<Vec<GithubRepo>> {
    info!("Starting to parse repositories...");
    let document = Html::parse_document(html);

    // 定义 CSS 选择器
    let repo_selector = Selector::parse("article.Box-row")
        .map_err(|e| anyhow::anyhow!("Failed to parse repo selector: {}", e))?;
    let author_name_selector = Selector::parse("h2 a")
        .map_err(|e| anyhow::anyhow!("Failed to parse author-name selector: {}", e))?;
    let desc_selector = Selector::parse("p")
        .map_err(|e| anyhow::anyhow!("Failed to parse description selector: {}", e))?;
    let stars_selector = Selector::parse("a[href$='/stargazers']")
        .map_err(|e| anyhow::anyhow!("Failed to parse stars selector: {}", e))?;
    let forks_selector = Selector::parse("a[href$='/forks']")
        .map_err(|e| anyhow::anyhow!("Failed to parse forks selector: {}", e))?;
    let today_stars_selector = Selector::parse("span[data-menu-button-text]")
        .map_err(|e| anyhow::anyhow!("Failed to parse today-stars selector: {}", e))?;

    let mut repos = Vec::new();

    for repo_node in document.select(&repo_selector) {
        // 提取作者和仓库名
        let author_name_element = repo_node
            .select(&author_name_selector)
            .next()
            .context("Missing author/name element")?;

        let author_name_text = author_name_element
            .text()
            .collect::<String>()
            .trim()
            .to_string();

        let (author, name) = author_name_text
            .split_once('/')
            .context(format!("Invalid author/name format: '{}'", author_name_text))?;

        let author = author.trim().to_string();
        let name = name.trim().to_string();

        // 拼接完整链接
        let url = author_name_element
            .value()
            .attr("href")
            .context("Missing href attribute")?
            .to_string();
        let url = format!("https://github.com{}", url);

        // 提取描述（可选）
        let description = repo_node
            .select(&desc_selector)
            .next()
            .map(|elem| elem.text().collect::<String>().trim().to_string());

        // 提取统计信息，缺失则默认为 "0"
        let stars = repo_node
            .select(&stars_selector)
            .next()
            .map(|elem| elem.text().collect::<String>().trim().to_string())
            .unwrap_or_else(|| "0".to_string());

        let forks = repo_node
            .select(&forks_selector)
            .next()
            .map(|elem| elem.text().collect::<String>().trim().to_string())
            .unwrap_or_else(|| "0".to_string());

        let today_stars = repo_node
            .select(&today_stars_selector)
            .next()
            .map(|elem| elem.text().collect::<String>().trim().to_string())
            .unwrap_or_else(|| "0".to_string());

        repos.push(GithubRepo {
            author,
            name,
            description,
            stars,
            forks,
            today_stars,
            url,
        });
    }

    info!("Successfully parsed {} repositories", repos.len());
    Ok(repos)
}

fn save_repos_to_json(repos: &[GithubRepo], path: &str) -> Result<()> {
    info!("Saving repositories to JSON file: {}", path);
    let file = File::create(Path::new(path))
        .context(format!("Failed to create file: {}", path))?;

    serde_json::to_writer_pretty(file, repos)
        .context("Failed to serialize repos to JSON")?;

    info!("Successfully saved {} repos to {}", repos.len(), path);
    Ok(())
}

#[tokio::main]
async fn main() -> Result<()> {
    init_logger();
    info!("Starting GitHub Trending Rust Crawler...");

    let client = Client::builder()
        .connect_timeout(std::time::Duration::from_secs(10))
        .timeout(std::time::Duration::from_secs(15))
        .build()
        .context("Failed to create HTTP client")?;

    let html = fetch_trending_page(&client).await?;
    let repos = parse_repos(&html)?;
    save_repos_to_json(&repos, "trending_repos.json")?;

    info!("Crawler finished successfully! Check 'trending_repos.json' for results.");
    Ok(())
}

cargo run

RUST_LOG=debug cargo run

[
  {
    "author": "YaLTeR",
    "name": "niri",
    "description": "A scrollable-tiling Wayland compositor.",
    "stars": "14,823",
    "forks": "523",
    "today_stars": "0",
    "url": "https://github.com/YaLTeR/niri"
  },
  {
    "author": "librespot-org",
    "name": "librespot",
    "description": "Open Source Spotify client library",
    "stars": "6,131",
    "forks": "773",
    "today_stars": "0",
    "url": "https://github.com/librespot-org/librespot"
  }
]

基于 Rust 实现 GitHub Trending 热门仓库爬虫

技术选型

项目结构

环境搭建与依赖配置

基于 Rust 实现 GitHub Trending 热门仓库爬虫

技术选型

项目结构

环境搭建与依赖配置

更多推荐文章

相关免费在线工具

核心逻辑实现

1. 导入模块与初始化

2. 定义数据结构

3. 获取页面内容

4. 解析 HTML 提取数据

5. 保存结果

6. 主函数入口

运行与验证

总结

更多推荐文章

相关免费在线工具

基于 Rust 实现 GitHub Trending 热门仓库爬虫

基于 Rust 实现爬取 GitHub Trending 热门仓库

技术选型

项目结构

环境搭建与依赖配置

基于 Rust 实现 GitHub Trending 热门仓库爬虫

基于 Rust 实现爬取 GitHub Trending 热门仓库

技术选型

项目结构

环境搭建与依赖配置

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

核心逻辑实现

1. 导入模块与初始化

2. 定义数据结构

3. 获取页面内容

4. 解析 HTML 提取数据

5. 保存结果

6. 主函数入口

运行与验证

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具