GitHub 代码文件抓取与数据可视化实践（Python 实现） | 极客日志

PythonSaaSAI算法

GitHub 代码文件抓取与数据可视化实践（Python 实现）

综述由AI生成探讨了从 GitHub 抓取代码文件并进行可视化的实践。首先分析了直接网页抓取的稳定性问题，如结构变化、频率限制和 JS 渲染。随后引入 Web Scraper API 方案，实现了代码内容、元数据及上下文的结构化提取。最后通过 Python 结合 pandas 和 seaborn 对抓取数据进行语言分布、文件大小及活跃度分析，展示了开源项目分析的有效路径。

remedios发布于 2026/2/8更新于 2026/6/35.7K 浏览

GitHub 代码文件抓取与数据可视化实践（Python 实现）

在实际的数据分析和工具开发过程中，GitHub 往往是一个绕不开的数据来源。无论是统计某一技术方向的项目活跃度，还是分析开源生态趋势，都需要对仓库信息进行一定规模的抓取与整理。

表面上看，GitHub 提供了官方 API，但在一些非标准统计场景下（例如自定义筛选条件、页面聚合信息、或结合前端展示数据），直接使用网页数据反而更灵活。不过，这也带来了新的工程问题。

本文记录一次 GitHub 仓库信息抓取任务 的实现过程，重点放在：

任务设计思路
工程层面的挑战
使用 Web Scraper API 的抓取流程的实践体验

1. 任务背景与目标

本次任务的目标相对明确：

从 GitHub 搜索结果及仓库详情页面中，大量获取仓库的基础信息，用于后续的数据分析。

核心字段包括但不限于：

仓库名称
Star 数
Fork 数
主语言
最近更新时间

从工程角度看，这类任务并不复杂，但在规模化抓取时，会逐渐暴露一些现实问题。

2. 为什么直接抓取 GitHub 网页并不轻松

2.1 尝试自行抓取

整体思路并不复杂：

使用 requests 获取 GitHub 搜索页 HTML
解析仓库列表
进入仓库详情页，提取关键信息
降低请求频率，防止触发瓶颈

在设计阶段，这套方案看起来是完全可控的。

2.2 基础抓取代码示例

以下是一个简化后的示例代码，用于抓取 GitHub 搜索结果页中的仓库信息：

import requests
from bs4 import BeautifulSoup
import time
import random

HEADERS = {
    "User-Agent": (
        "Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
        "AppleWebKit/537.36 (KHTML, like Gecko) "
        "Chrome/120.0.0.0 Safari/537.36"
    )
}

def fetch_search_page(keyword, page=1):
    url = "https://github.com/search"
    params = {"q": keyword, "type": "repositories", "p": page}
    resp = requests.get(url, headers=HEADERS, params=params, timeout=10)
    resp.raise_for_status()
    return resp.text

 ():
    soup = BeautifulSoup(html, )
    repo_items = soup.select()
    repos = []
     item  repo_items:
        name = item.select_one()
        star = item.select_one()
        repos.append({
            : name.text.strip()  name  ,
            : star.text.strip()  star  
        })
     repos

 __name__ == :
    all_repos = []
     page  (, ):
        html = fetch_search_page(, page)
        repos = parse_repositories(html)
        all_repos.extend(repos)
        time.sleep(random.uniform(, ))
    (all_repos)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import requests
import json

def main():
    client = requests.Session()
    target_url = "https://scraper-api.example.com/builder"
    spider_parameters = [
        {
            "url": "https://github.com/TheAlgorithms/Python/blob/master/divide_and_conquer/power.py"
        },
        {
            "url": "https://github.com/AkarshSatija/msSync/blob/master/index.js"
        }
    ]
    spider_parameters_json = json.dumps(spider_parameters)
    form_data = {
        "spider_name": "github.com",
        "spider_id": "github_repository_by-url",
        "spider_parameters": spider_parameters_json,
        "spider_errors": "true",
        "file_name": "{{TasksID}}"
    }
    headers = {
        "Authorization": "Bearer YOUR_TOKEN",
        "Content-Type": "application/x-www-form-urlencoded"
    }
    try:
        resp = client.post(target_url, data=form_data, headers=headers)
        resp.raise_for_status()
        print(f"Status Code: {resp.status_code}")
        print(f"Response Body: {resp.text}")
    except requests.exceptions.RequestException as e:
        print(f"Error sending request: {e}")

if __name__ == "__main__":
    main()

[
  {
    "url": "https://github.com/TheAlgorithms/Python/blob/master/divide_and_conquer/power.py",
    "id": 63476337,
    "code_language": "Python",
    "code": [ ... ],
    "num_lines": "53",
    "user_name": "TheAlgorithms",
    "user_url": "https://github.com/TheAlgorithms",
    "size": "1.09 KB",
    "size_unit": "KB",
    "breadcrumbs": [
      { "name": "divide_and_conquer", "url": "..." },
      { "name": "Python", "url": "..." },
      { "name": "power.py", "url": "..." }
    ],
    "num_issues": "156",
    "num_pull_requests": "682",
    "num_fork": "49,906",
    "num_stared": "216,665",
    "latest_update": "2025-02-09T20:51:18.000+03:00"
  }
]

字段	完整率
url	100%
user_name	100%
code_language	98%
num_lines	97%
size_num	100%
num_stared	100%
num_fork	100%
latest_update	99%

字段	完整率
num_issues	90%
num_pull_requests	88%
num_projects	70%
last_feature	85%

字段	完整率
error	100%（空值）
error_code	100%（空值）

[
  { "name": "divide_and_conquer", "url": "..." },
  { "name": "Python", "url": "..." },
  { "name": "power.py", "url": "..." }
]

import requests
import json
import time

# ================== 配置区 ==================
API_TOKEN = "YOUR_API_TOKEN"
CREATE_TASK_URL = "https://api.scraper-api.example.com/builder"
LATEST_TASK_STATUS_URL = "https://api.scraper-api.example.com/get_latest_task_status"
HEADERS = {
    "Authorization": f"Bearer {API_TOKEN}",
    "Content-Type": "application/x-www-form-urlencoded"
}

# ================== 1. 创建任务 ==================
def create_task():
    spider_parameters = [
        {"url": "https://github.com/jingyaogong/minimind/blob/master/trainer/trainer_utils.py"},
        {"url": "https://github.com/simonw/llm/blob/main/llm/__main__.py"},
        {"url": "https://github.com/chengxy-nds/Springboot-Notebook/blob/master/pom.xml"}
    ]
    form_data = {
        "spider_name": "github.com",
        "spider_id": "github_repository_by-url",
        "spider_parameters": json.dumps(spider_parameters),
        "spider_errors": "true",
        "file_name": "{{TasksID}}"
    }
    resp = requests.post(CREATE_TASK_URL, headers=HEADERS, data=form_data)
    resp.raise_for_status()
    result = resp.json()
    print("Create task response:", result)
    task_id = result.get("data", {}).get("task_id")
    if not task_id:
        raise RuntimeError("No task_id returned")
    return task_id

# ================== 2. 主流程 ==================
def main():
    task_id = create_task()
    print("Task ID:", task_id)

if __name__ == "__main__":
    main()

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# ================== 配置 ==================
CSV_FILE = "75872b1ea3e5487fa592e153d44825c9.csv"

# ================== 读取 CSV ==================
df = pd.read_csv(CSV_FILE)

# ================== 数据预处理 ==================
df["num_lines"] = pd.to_numeric(df["num_lines"], errors='coerce')
df["size_num"] = pd.to_numeric(df["size_num"], errors='coerce')
df["num_stared"] = df["num_stared"].str.replace(',', '').astype(float)
df["num_fork"] = df["num_fork"].str.replace(',', '').astype(float)

# ================== 可视化 ==================
sns.set(style="whitegrid")

# 1. 代码语言分布
plt.figure(figsize=(6, 4))
sns.countplot(data=df, x="code_language", palette="Set2")
plt.title("Code Language Distribution")
plt.ylabel("Number of Files")
plt.xlabel("Programming Language")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# 2. 每个用户的文件数量
plt.figure(figsize=(6, 4))
sns.countplot(data=df, x="user_name", palette="Set3")
plt.title("Number of Files per User")
plt.ylabel("Number of Files")
plt.xlabel("User")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# 3. 文件行数分布
plt.figure(figsize=(6, 4))
sns.histplot(df["num_lines"], bins=10, kde=True, color="skyblue")
plt.title("File Lines Distribution")
plt.xlabel("Number of Lines")
plt.ylabel("Number of Files")
plt.tight_layout()
plt.show()

# 4. 文件大小分布
plt.figure(figsize=(6, 4))
sns.histplot(df["size_num"], bins=10, kde=True, color="salmon")
plt.title("File Size Distribution (KB)")
plt.xlabel("File Size (KB)")
plt.ylabel("Number of Files")
plt.tight_layout()
plt.show()

# 5. Fork 与 Star 数量关系
plt.figure(figsize=(6, 4))
sns.scatterplot(data=df, x="num_fork", y="num_stared", hue="code_language", s=100)
plt.title("Fork vs Stared")
plt.xlabel("Number of Forks")
plt.ylabel("Number of Stars")
plt.legend(title="Programming Language")
plt.tight_layout()
plt.show()

GitHub 代码文件抓取与数据可视化实践（Python 实现）

GitHub 代码文件抓取与数据可视化实践（Python 实现）

1. 任务背景与目标

2. 为什么直接抓取 GitHub 网页并不轻松

2.1 尝试自行抓取

2.2 基础抓取代码示例

更多推荐文章

相关免费在线工具

2.3 实际运行中逐渐暴露的问题

2.3.1 页面结构不稳定

2.3.2 访问频率受限逐步显现

2.3.3 JavaScript 渲染问题

2.3.4 工程复杂度快速膨胀

2.4 自建方案的边界在哪里

3. 引入 Web Scraper API

4. 实际抓取过程记录

4.1 抓取代码

4.2 结论分析

4.2.1 代码内容抽取能力（核心）

4.2.2 仓库 & 作者元信息聚合能力

4.2.3 文件上下文还原能力

4.2.4 时间与变更跟随能力

4.2.5 任务级跟随 & 计费透明度

5. 利用 Web Scraper API 抓取 GitHub 仓库代码数据并可视化分析

5.1 抓取代码文件信息

5.2 读取 CSV 并进行可视化分析

6. 适用场景

7. 总结

更多推荐文章

相关免费在线工具

GitHub 代码文件抓取与数据可视化实践（Python 实现）

GitHub 代码文件抓取与数据可视化实践（Python 实现）

1. 任务背景与目标

2. 为什么直接抓取 GitHub 网页并不轻松

2.1 尝试自行抓取

2.2 基础抓取代码示例

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.3 实际运行中逐渐暴露的问题

2.3.1 页面结构不稳定

2.3.2 访问频率受限逐步显现

2.3.3 JavaScript 渲染问题

2.3.4 工程复杂度快速膨胀

2.4 自建方案的边界在哪里

3. 引入 Web Scraper API

4. 实际抓取过程记录

4.1 抓取代码

4.2 结论分析

4.2.1 代码内容抽取能力（核心）

4.2.2 仓库 & 作者元信息聚合能力

4.2.3 文件上下文还原能力

4.2.4 时间与变更跟随能力

4.2.5 任务级跟随 & 计费透明度

5. 利用 Web Scraper API 抓取 GitHub 仓库代码数据并可视化分析

5.1 抓取代码文件信息

5.2 读取 CSV 并进行可视化分析

6. 适用场景

7. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具