GitHub开源项目日报 · 2026年2月25日 · 本期榜单AI代理与爬虫热潮

GitHub开源项目日报 · 2026年2月25日 · 本期榜单AI代理与爬虫热潮

本期榜单主要项目覆盖网页抓取、AI代理技能、代码知识图谱、上下文工程、内存框架、向量数据库与大模型训练等方向。 Scrapling 提供自适应爬虫与多会话并发,Hugging Face Skills 提供标准化代理技能集合,GitNexus 本地运行的代码知识图谱,Superpowers 基于技能的端到端代理工作流,Hello-Agents 与 DeerFlow 展示多智能体协作与执行能力,PageIndex 推理式 RAG、memU 24/7 内存框架、RuVector 本地向量数据库与图推理,以及 Megatron-LM 的 GPU 优化训练工具。 其中每天增长超过100星以上的项目包含 Hello-Agents 与 Superpowers。

根据Github Trendings的统计,共有以下项目上榜:

排名项目名称项目语言
1Scrapling:适应性网页抓取框架,覆盖从单次请求到全量爬虫 (D4Vinci/Scrapling)Python
2Hugging Face Skills:AI代理技能集合 (huggingface/skills)Python
3GitNexus:浏览器端零服务器代码知识图谱与 AI 助手 (abhigyanpatwari/GitNexus)TypeScript
4面向代理的技能框架与软件开发工作流(Superpowers) (obra/superpowers)Shell
5上下文工程与多代理系统技能集合 (muratcankoylan/Agent-Skills-for-Context-Engineering)Python
6Hello-Agents:从零到多智能体的系统化学习 (datawhalechina/hello-agents)Python
7DeerFlow:开源超级代理执行框架 (bytedance/deer-flow)TypeScript, Python
8PageIndex:向量无关的推理式RAG 框架 (VectifyAI/PageIndex)Python
9memU:用于24/7主动代理的内存框架 (NevaMind-AI/memU)Python
10RuVector:高性能自学习向量图神经网络数据库(Rust实现) (ruvnet/ruvector)Rust
11Megatron-LM 与 Megatron Core:GPU 优化大规模训练库 (NVIDIA/Megatron-LM)Python
12Bash 是全部:一个微型 Claude Code 风格代理学习项目 (shareAI-lab/learn-claude-code)TypeScript, Python
13系统提示与 AI 工具模型汇总与洞察 (x1xhlol/system-prompts-and-models-of-ai-tools)其他
14Plano:面向代理应用的 AI 本地代理与数据平面 (katanemo/plano)Rust
15鱼皮的 AI 知识库与 Vibe Coding 零基础教程 (liyupi/ai-guide)JavaScript
16Cloud CLI(Claude Code UI)跨设备代码工作区管理 (siteboon/claudecodeui)JavaScript, TypeScript

Rank 1 - Scrapling:适应性网页抓取框架,覆盖从单次请求到全量爬虫

  • 项目路径:D4Vinci/Scrapling
  • 创建时间:创建于1年前
  • 项目成长:平均每天获得28.0个星星
  • 开发语言:Python
  • 协议类型:BSD 3-Clause “New” or “Revised” License
  • Star数量:13993 个
  • Fork数量:928 次
  • 贡献人数:5 人
  • Open Issues数量:8 个
  • Github地址:https://github.com/D4Vinci/Scrapling.git
  • 项目首页: https://scrapling.readthedocs.io/en/latest/

关键词: Scrapling, Web Scraping, Fetcher, StealthyFetcher, DynamicFetcher, Playwright, Cloudflare Turnstile, Proxy Rotation, Spider, MCP, Selector, CSS/XPath, JSON/JSONL, Docker, IPython shell, Browser automation, AI, Claude, Cursor, PyRight, MyPy

项目简介

Scrapling 是一个自适应的网页抓取框架,能够从单次请求扩展到大规模爬虫。其解析器在网页变化时会自动重新定位元素,Fetchers 探测并绕过 Cloudflare Turnstile 等反爬机制,Spider 框架支持多会话并发、暂停/恢复,以及自动代理轮换,使用仅需几行 Python 即可实现全流程爬取。还提供实时流式输出、内置导出和 MCP 服务器用于 AI 辅助的数据提取,面向开发者和普通用户。

该项目通过智能元素追踪、灵活选择器、以及对网站改版的自适应定位,解决了网页结构变化导致的抓取失效问题。同时,结合多会话、分布式请求、浏览器自动化、代理轮换和域名拦截等功能,提升了稳定性、通过率和扩展性,进一步实现高吞吐与实时统计。

应用场景

  • 企业级数据采集与监控:大型组织需要持续从电商、新闻、金融等站点获取结构化数据,Scrapling 的高并发、跨会话、暂停/恢复和自动代理轮换能力,可以稳定地在高更新频率的网站上进行长期数据监控,并通过内置导出或数据管线集成到仓库。
  • 个人开发者的学习与自动化工具:在学习阶段可以通过命令行或 Python API 快速搭建爬虫,Scrapling 提供互动式 Shell、Curl 转 Scrapling 请求等工具,降低上手难度。
  • AI 数据准备与研究:结合 MCP 服务器和 AI 模型,可以在抓取阶段精准定位目标内容,减少后续处理成本,提升标注和推断阶段的效率。
  • 合规环境的浏览器自动化与安全测试:利用 StealthyFetcher/DynamicFetcher 与 ProxyRotator 的组合进行自动化测试、反爬策略评估、以及浏览器行为仿真,帮助团队在合规前提下验证系统鲁棒性。

Rank 2 - Hugging Face Skills:AI代理技能集合

  • 项目路径:huggingface/skills
  • 创建时间:创建于93天前
  • 项目成长:平均每天获得66.3个星星
  • 开发语言:Python
  • 协议类型:Apache License 2.0
  • Star数量:6169 个
  • Fork数量:367 次
  • 贡献人数:14 人
  • Open Issues数量:14 个
  • Github地址:https://github.com/huggingface/skills.git

关键词: HuggingFace, Skills, Agent Skills, Codex, Claude Code, Gemini CLI, Cursor, SKILL.md, AGENTS.md, gemini-extension.json, Trackio, TRL, GGUF, HF Hub, datasets, evaluation, jobs, model-trainer, gradio, paper-publisher, tool-builder

趋势变化

上一次上榜时间:2026-02-24,Star 增长:+1404 (+29.5%)

项目简介

本仓库提供一组用于 AI/ML 任务的技能(Skills),以 Agent Skill 标准格式组织,便于在 Claude Code、Codex、Gemini CLI、Cursor 等主流代理中使用。每个技能是独立文件夹,含 SKILL.md 前置信息与执行指南,方便快速集成到工作流中。示例技能覆盖数据集管理、模型训练、评估、任务调度、实验跟踪等场景,帮助开发者以同一仓库构建可重复、可扩展的自动化 AI 流程。

当前不同代理工具在 AI 任务定义与执行上缺乏统一标准,集成成本高,重复工作多。该项目通过标准化的 Skill 目录与 SKILL.md 描述,提供数据集创建、模型训练、评估、任务调度等可移植的指令和脚本集合,降低跨工具集成难度,提升协作效率和工作流可重复性。

应用场景

  • 企业级 AI/ML 工作流自动化:在企业数据平台上结合 hugging-face-datasets、hugging-face-jobs、hugging-face-model-trainer 等技能,将数据准备、模型训练、评估与结果记录的全链路自动化,提升产出效率、可追溯性,并方便与 HF Hub、Trackio、GGUF 等配套工具协同工作。
  • 研究与学术出版:研究团队利用 hugging-face-paper-publisher、hugging-face-evaluation 及 Trackio,自动整理论文信息、关联模型和数据集、生成专业文章,并记录评测结果,提升学术产出的效率与准确性。
  • 个人开发与学习演示:学习者和开发者可通过 gradio、datasets、hf-cli 快速搭建演示、创建小型数据集、运行简单训练任务,并在本地或 HF Spaces 上展示与分享结果,促进原型验证。
  • SaaS/企业市场入口与集成:企业级服务可通过 gemini-extension

Read more

Llama-Factory训练监控功能详解:实时追踪loss与收敛状态

Llama-Factory训练监控功能详解:实时追踪loss与收敛状态 在大模型微调日益普及的今天,一个常见的尴尬场景是:你启动了训练任务,然后盯着命令行输出的几行数字发呆——loss: 2.1093、loss: 2.1087……这些跳动的数值究竟意味着什么?模型是在稳步学习,还是陷入了震荡甚至崩溃?更糟的是,当你第二天回来查看时,发现训练早已因 CUDA OOM 中途失败,而日志里只留下一行模糊的报错。 这正是许多开发者面对“黑箱式”训练流程的真实写照。而 Llama-Factory 的出现,某种程度上就是为了解决这类问题。它不仅仅是一个支持 LoRA、QLoRA 的轻量化微调工具,更关键的是,它内置了一套开箱即用的训练监控体系,让整个微调过程变得透明、可控、可解释。 这套系统的核心价值,并不在于技术上的颠覆性创新,而在于将原本分散在 TensorBoard、自定义脚本、终端日志中的信息整合成一个统一的交互界面,使用户能像驾驶舱里的飞行员一样,随时掌握模型的学习状态。 实时 Loss 追踪:不只是画一条曲线那么简单

By Ne0inhk
日语视频 SRT 字幕生成软件下载:日语视频本地自动翻译SRT字幕生成、日语视频自动翻译 Faster Whisper v1.7 下载与使用教程(含AMD显卡支持)

日语视频 SRT 字幕生成软件下载:日语视频本地自动翻译SRT字幕生成、日语视频自动翻译 Faster Whisper v1.7 下载与使用教程(含AMD显卡支持)

日语视频 SRT 字幕生成软件下载:日语视频本地自动翻译SRT字幕生成、日语视频自动翻译 Faster Whisper v1.7 下载与使用教程(含AMD显卡支持) 关键词:Faster Whisper 教程、Whisper 本地部署、CUDA 12.8 下载、AMD ROCm Whisper、日文转中文 转录工具、Whisper 批处理模式、RTX 50 CUDA 版本选择 下载地址: https://pan.quark.cn/s/b18c407fc471 这篇文章系统整理 Faster-Whisper-TransWithAI-ChickenRice v1.7 的版本说明、显卡选择方式、下载地址以及快速上手流程,尤其是: * ✅ 基础版 vs 海南鸡版区别

By Ne0inhk

找回 Edge 边栏中消失的 Copilot 图标

Edge 边栏的 Copilot 能根据网页内容增强回复,相当于内置了RAG,而且能不限次数使用GPT-5,非常方便。笔者有次打开 Edge 浏览器时发现边栏的Copilot图标消失了,探索了一些方法后终于找到解决方案,以下: 1. win+R 打开运行,输入 powershell 打开,复制以下正则表达式全文到powershell 命令窗口回车运行即可。命令窗口出现“✅ 已将 variations_country 设置为 US。已重新启动 Microsoft Edge”代表已经成功。 & { # 关闭所有 Edge 进程 Get-Process | Where-Object { $_.ProcessName -like "msedge*" } | Stop-Process -Force -ErrorAction SilentlyContinue Start-Sleep -Seconds 3 $localState

By Ne0inhk

告别 Copilot 时代:Cursor, Kiro 与 Google Antigravity 如何重新定义编程?

如果说 GitHub Copilot 开启了 AI 辅助编程的“副驾驶”时代,那么 2024-2025 年则是 AI Agent(智能体) 全面接管 IDE 的元年。 现在的开发者不再满足于简单的代码补全,我们需要的是能理解整个项目架构、能自主规划任务、甚至能像真人同事一样工作的“编程搭子”。 今天,我们盘点三款目前最受瞩目、处于风口浪尖的 AI 编程工具:Cursor、Kiro 以及 Google 的重磅新品 Antigravity。无论你是想提升效率,还是想尝鲜最前沿的 Agentic Workflow,这三款神器都不容错过。 1. Cursor:当下体验最好的 AI 代码编辑器 定位:目前最成熟、最流畅的 VS Code 替代者 Cursor

By Ne0inhk