利用 B 站评论区数据构建大语言模型微调数据集 | 极客日志

PythonAI算法

利用 B 站评论区数据构建大语言模型微调数据集

利用 B 站视频评论区构建中文对话数据集的方法。通过异步爬虫获取评论数据，依据父子关系构建树状结构，提取根到叶的路径生成对话序列，并进行必要的清洗与格式化。该方法生成的数据集可用于大语言模型的指令微调或对话生成任务。实际应用中，建议结合具体业务需求进一步调整数据过滤策略，以确保数据集的质量与多样性。

观心发布于 2025/2/6更新于 2026/5/3020 浏览

数据集样例

最终完成构建的数据集，样例如下：

[
  [
    {
      "from": "龙末",
      "value": "上学的时候，寝室六个人，蚊子只爱我，\n宁可趴在我蚊帐上对我垂涎三尺望眼欲穿，都不会去叮其他人趴其他人的蚊帐，"
    },
    {
      "from": "雾川鹤",
      "value": "我一样，宿舍四个人，只叮我，b 型血"
    },
    {
      "from": "心琪爱糖",
      "value": "b 血加一，一个屋里人家能骑着被子我得从头到脚裹严实"
    },
    {
      "from": "带个蓬箍会头疼",
      "value": "和血型无关，和糖分有关，一般胖人，或者懒人身上没肌肉都是那种软肉，糖分会高点，肌肉男运动型人不怎么招蚊子"
    },
    {
      "from": "龙末",
      "value": "我是 176cm，55kg 的肌肉女"

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

graph LR
A[主题 1] --> B[评论 1]
A --> C[评论 2]
A --> D[评论 3]
B --> E[评论 4]
B --> F[评论 5]
C --> G[评论 6]
C --> H[评论 7]
D --> I[评论 8]

from dotenv import load_dotenv
import os

load_dotenv()
env = os.environ

SESSDATA = env.get('SESSDATA', '')
BILI_JCT = env.get('BILI_JCT', '')
BUVID3 = env.get('BUVID3', '')
DEDE_USER_ID = env.get('DEDE_USER_ID', '')
AT_TIME_VALUE = env.get('AT_TIME_VALUE', '')

import asyncio
import json
from typing import Any, Dict, List, Optional, TypeAlias

import httpx
from bilibili_api.credential import Credential

# config 中包含了必要的 Cookie 参数
from config import *

JSON_TYPE: TypeAlias = Dict[str, Any]

COMMON_HEADERS = {
    "Origin": "https://www.bilibili.com",
    "Authority": "api.bilibili.com",
    "Sec-Ch-Ua": '"Chromium";v="116", "Not)A;Brand";v="24", "Microsoft Edge";v="116"',
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)"
}

if not (SESSDATA and BILI_JCT and BUVID3 and DEDE_USER_ID and AT_TIME_VALUE):
    raise ValueError("请在 .env 中填写 SESSDATA, BILI_JCT, BUVID3, DEDE_USER_ID, AT_TIME_VALUE")

credential = Credential(sessdata=SESSDATA, bili_jct=BILI_JCT,
                        buvid3=BUVID3, dedeuserid=DEDE_USER_ID, ac_time_value=AT_TIME_VALUE)
print("credential: ", credential.get_cookies())

# 假设已导入 AsyncPool 类
from async_pool import AsyncPool
pool = AsyncPool(maxsize=16)

async def get_html(url: str, params: Dict = None, headers: Dict = None, cookies: Dict = None, timeout: int = 30, client: httpx.AsyncClient = None):
    m_client = client
    try:
        if client is None:
            m_client = httpx.AsyncClient()
        r = await m_client.get(url, timeout=timeout, params=params, headers=headers, cookies=cookies)
        r.raise_for_status()
        return r.text
    except Exception as e:
        print(f"Request error: {e}")
        return "Error"
    finally:
        if client is None and m_client is not None:
            await m_client.aclose()

async def get_one_page(oid: int, pagination_str: str, client: httpx.AsyncClient = None):
    """获取范围：一个回复页"""
    params = {
        "type": 1,
        "oid": oid,
        "mode": 2,
        "pagination_str": '{"offset":"%s"}' % pagination_str.replace('"', r"\""),
    }
    url = "https://api.bilibili.com/x/v2/reply/main"
    text = await get_html(url, params, COMMON_HEADERS, cookies=credential.get_cookies(), client=client)
    obj = json.loads(text)
    return obj

async def crawl_one_video(oid: int):
    """爬取一个视频的所有评论"""
    print(f"- 开始爬取视频 {oid} 的评论")
    url = "https://api.bilibili.com/x/v2/reply/count"
    params = {"type": 1, "oid": oid}
    text = await get_html(url, params, COMMON_HEADERS)
    obj = json.loads(text)
    total_page: int = obj["data"]["count"] // 20 + 1
    print(f"- 视频 {oid} 一共有 {total_page} 页评论")
    
    pagination = ''
    async with httpx.AsyncClient() as client:
        for page in range(1, total_page + 1):
            # 此处简化调用逻辑，实际需处理分页字符串更新
            next_page = await crawl_one_page_video(oid, page, pagination_str=pagination, client=client)
            if next_page is None:
                break
            pagination = next_page
            await asyncio.sleep(0.1)

async def main():
    await refresh_cookie_if_necessary()
    await crawl_one_video(2)

if __name__ == "__main__":
    asyncio.run(main())

{
    476670: {'parent': 0, 'content': '貌似没人来', 'uname': '残星什么的就是残星'},
    214198179: {'parent': 476670, 'content': '可怜的二楼 (=・ω・=)', 'uname': '初音ハク'},
    # ... 更多评论
}

from typing import List, Dict

def build_conv_from_replies(replies_dict) -> List[List[Dict]]:
    conv_tree = {}
    
    # 构建对话树
    for reply_id, reply in replies_dict.items():
        parent_id = reply['parent']
        if parent_id in conv_tree:
            conv_tree[parent_id].append(reply_id)
        else:
            conv_tree[parent_id] = [reply_id]

    longest_paths = []
    path = []

    # DFS 遍历
    def dfs(node):
        nonlocal path
        path.append(node)
        if node not in conv_tree:
            longest_paths.append(path.copy())
        else:
            for child in conv_tree[node]:
                dfs(child)
        path.pop()

    # 从每个根节点开始
    for root in conv_tree.get(0, []):
        dfs(root)

    conversations = []
    for path in longest_paths:
        conversation = []
        for node in path:
            item = replies_dict[node]
            content = item['content']
            # 清理回复标记
            if content.startswith('回复 @'):
                content = content.split(':')[1] if ':' in content else content
            conversation.append({
                'from': item['uname'],
                'value': content
            })
        # 过滤短对话
        if len(conversation) >= 3:
            conversations.append(conversation)
    
    return conversations

利用 B 站评论区数据构建大语言模型微调数据集

数据集样例

更多推荐文章

相关免费在线工具

前言

基本思路

爬虫实现

接口分析

协程与协程池

代码实现

构建数据集

数据结构解析

树构建与对话提取

数据质量优化建议

总结

更多推荐文章

相关免费在线工具

利用 B 站评论区数据构建大语言模型微调数据集

数据集样例

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

前言

基本思路

爬虫实现

接口分析

协程与协程池

Cookie 认证

代码实现

构建数据集

数据结构解析

树构建与对话提取

数据质量优化建议

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具