Python 采集《雪中悍刀行》弹幕生成词云实例

Python 采集《雪中悍刀行》弹幕生成词云实例 | 极客日志

import re
import requests
import pandas as pd
from collections import Counter
import jieba
from pyecharts.charts import WordCloud
from pyecharts import options as opts

# 设置请求头，模拟 Chrome 浏览器
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36'
}

# 初始化列表用于储存解析后的数据
data_list = []

# 遍历页码范围，根据实际接口调整
# 注意：实际项目中需确认接口是否支持该参数范围，此处为示例逻辑
for page in range(15, 1500, 30):
    # 构造请求 URL，包含目标 ID 和会话密钥
    url = f'https://mfm.video.qq.com/danmu?otype=json&target_id=7626435152&vid=p0041oidttf&session_key=0,174,1642248894&timestamp={page}'
    
    try:
        response = requests.get(url=url, headers=headers, timeout=10)
        if response.status_code == 200:
            json_data = response.json()
            # 简单判断是否有数据返回
            if 'comments' in json_data:
                comments = json_data['comments']
                # 处理每一条评论
                for comment in comments:
                    data_dict = {}
                    # 提取评论 ID
                    data_dict['commentid'] = comment.get('commentid', '')
                    # 提取评论内容
                    content = comment.get('content', '')
                    # 清理特殊字符（如控制符）
                    content = re.sub(r'[\x0e\xa0]', '', content)
                    data_dict['content'] = content
                    # 提取用户名
                    data_dict['opername'] = comment.get('opername', '')
                    
                    data_list.append(data_dict)
        else:
            print(f"请求失败，状态码：{response.status_code}")
    except Exception as e:
        print(f"发生错误：{e}")

# 创建 DataFrame
if data_list:
    df = pd.DataFrame(data_list)
    # 保存数据
    df.to_csv('danmu_data.csv', encoding='utf-8-sig', index=False)
    print(f"数据已保存，共 {len(df)} 条记录")
else:
    print("未采集到有效数据")

# 读取数据
df = pd.read_csv('danmu_data.csv')
contents = df['content'].dropna().tolist()

# 合并所有文本并进行分词
all_text = ' '.join(contents)
cut_words = jieba.lcut(all_text)

# 过滤停用词（示例：简单的长度过滤，实际应加载停用词表）
filtered_words = [word for word in cut_words if len(word.strip()) > 1]

# 统计词频
counter = Counter(filtered_words)
# 获取前 N 个高频词
top_words = counter.most_common(100)

# 准备数据格式 [(word, count), ...]
word_count_list = top_words

# 创建词云对象
wc = (
    WordCloud()
    .add(series_name="弹幕热词", data_pair=word_count_list, word_size_range=[10, 50], shape='circle')
    .set_global_opts(
        title_opts=opts.TitleOpts(title="《雪中悍刀行》弹幕词云分析"),
        tooltip_opts=opts.TooltipOpts(is_show=True)
    )
)

# 渲染输出
wc.render_notebook()  # 在 Jupyter 中显示
# wc.render("wordcloud.html") # 保存为 HTML 文件

Python 采集《雪中悍刀行》弹幕生成词云实例

Python 采集《雪中悍刀行》弹幕生成词云实例

前言

知识点介绍

环境准备

代码实现详解

1. 导入必要的模块

2. 构建请求头与发送网络请求

3. 数据保存

4. 词云图可视化

常见问题与优化建议

总结

更多推荐文章

相关免费在线工具

Python 采集《雪中悍刀行》弹幕生成词云实例

Python 采集《雪中悍刀行》弹幕生成词云实例

前言

知识点介绍

环境准备

代码实现详解

1. 导入必要的模块

2. 构建请求头与发送网络请求

3. 数据保存

4. 词云图可视化

常见问题与优化建议

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具