Python 爬虫实战:爬取 B 站 UP 主的全部视频数据

前言

B 站(哔哩哔哩)作为国内领先的视频内容平台,汇聚了海量创作者(UP 主)的优质视频内容,爬取 UP 主的视频数据可用于内容分析、粉丝增长研究、视频热度追踪等场景。相较于常规网页爬虫,B 站数据基于 API 接口传输,且具备完善的反爬机制,爬取难度更高。本文系统化讲解如何基于 Python 合规爬取 B 站 UP 主的全部视频数据,从接口分析、鉴权处理到数据解析存储,完整呈现针对 B 站生态的爬虫开发全流程。需特别说明:本文仅作技术研究之用,爬取内容不得用于商业用途,需遵守 B 站用户协议及相关法律法规。

摘要

本文以B 站 UP 主示例(Python 编程学习)为例(注:该链接为 UP 主空间示例),详细阐述基于 Python 的 B 站 UP 主视频数据爬虫开发流程。核心技术涵盖requests库的 HTTP 请求发送、json库的 JSON 数据解析、pandas库的结构化存储,同时攻克 B 站 API 接口鉴权、分页爬取、反爬策略规避等核心难点。最终实现提取 UP 主视频的标题、播放量、弹幕数、点赞数、投币数、发布时间等核心信息,并完成结构化存储,为后续视频内容分析奠定基础。

一、技术栈

Read more

GitHub Copilot 使用笔记

GitHub Copilot 是 VSCode 自带的 AI Agent 插件,需要登录 GitHub 账号使用,分为免费版和付费版。 关于个人额度,可以在 Github 的 Copilot 菜单里查看 支持模型 添加第三方模型 通过 Manage Models 选中对应厂商。 可以通过 OpenRouter 来导入免费的模型,需要先到 OpenRouter 注册 API Key,输入后即可使用,也可以使用兼容 OpenAI 接口的三方 API,比如 硅基流动 SiliconFlow 使用帮助信息 切换到 Ask 模式,输入 /help 即可获取帮助命令,可以查看当前有什么可用命令和使用方法。 翻译后的内容,方便查看,

By Ne0inhk

灵感画廊入门必看:Stable Diffusion XL 1.0如何通过‘挥笔成画’触发生成

灵感画廊入门必看:Stable Diffusion XL 1.0如何通过‘挥笔成画’触发生成 想象一下,你脑海中有一个绝妙的画面:一只狐狸在月光下的森林里回眸,眼神里藏着千年的故事。你想把它画下来,但你不是画家,手绘板也积了灰。这时候,你只需要打开一个网页,在输入框里写下“月光下的狐狸,神秘回眸,森林,梦幻光影”,然后点击一个叫“挥笔成画”的按钮。 几秒钟后,一张高清、充满艺术感的图片就出现在你眼前。这不是魔法,而是“灵感画廊”正在工作。 灵感画廊,一个听起来就很有诗意的名字。它不是一个冰冷的工具,而是一个基于 Stable Diffusion XL 1.0 这个强大AI绘画模型打造的“创作终端”。它的目标很纯粹:让你忘掉复杂的参数和晦涩的术语,像在艺术沙龙里和朋友聊天一样,把脑海里的“梦境”变成“视觉诗篇”

By Ne0inhk

Lostlife2.0任务系统智能化:LLama-Factory驱动动态任务生成

Lostlife2.0任务系统智能化:LLama-Factory驱动动态任务生成 在今天的开放世界游戏中,玩家早已不再满足于“前往A点、击败B怪、带回C物品”这种千篇一律的任务链条。他们期待的是一个能感知自身状态、理解行为偏好、甚至记住过往选择的“活”的游戏世界。而要实现这一点,传统脚本化设计显然力不从心——内容量大、维护成本高、缺乏灵活性。 正是在这样的背景下,Lostlife2.0 开始尝试用大语言模型(LLM)重构其任务系统的核心逻辑。我们不再预先编写成千上万条任务指令,而是训练一个能够“根据情境实时生成合理任务”的智能引擎。而支撑这一构想落地的关键工具,正是开源社区中迅速崛起的一站式微调框架——LLama-Factory。 从“写死逻辑”到“学会出题”:为什么我们需要模型来生成任务? 设想这样一个场景:两名等级相同的玩家同时进入幽暗森林。一人背包空空、饥饿值低;另一人则装备齐全但缺少治疗资源。如果系统给两人派发完全相同的任务,比如“去砍10棵树”,那显然既不合理也不有趣。 理想情况下,系统应该像一位经验丰富的DM(地下城主),能结合当前环境、

By Ne0inhk
Linux系统学习【深入剖析Git的原理和使用(上)】

Linux系统学习【深入剖析Git的原理和使用(上)】

🔥承渊政道:个人主页 ❄️个人专栏: 《C语言基础语法知识》《数据结构与算法》 《C++知识内容》《Linux系统知识》 ✨逆境不吐心中苦,顺境不忘来时路!🎬 博主简介: 引言:在软件开发的全流程中,版本控制是保障协作效率、规避开发风险的核心基石,而Git作为目前最流行、最强大的分布式版本控制系统,早已渗透到从个人开发到大型企业级项目的每一个环节.无论是多人协作时的代码冲突解决、开发过程中的版本回溯,还是跨环境的代码同步、分支管理,Git都以其高效、安全、灵活的特性,成为开发者必备的核心工具.然而,多数开发者对Git的使用仍停留在“会用基础命令”的层面——知道用git add提交暂存、git commit提交本地、git push推送远程,却未必理解这些命令背后的底层逻辑:暂存区(Stage)、本地仓库(Local Repository)、远程仓库(Remote Repository)之间的数据流是怎样的?Git如何高效追踪文件的每一次变更?分布式架构与SVN等集中式版本控制系统相比,核心优势到底体现在哪里? 基于此,

By Ne0inhk