Python 豆瓣电影评论爬虫实战与数据分析

Python 豆瓣电影评论爬虫实战与数据分析 | 极客日志

pip install requests
pip install beautifulsoup4

pip install matplotlib

pip install pymysql

import requests

url = 'http://www.ip138.com/'
proxies = {
    'http': 'http://账号:密码@ip:port',
    'https': 'http://账号:密码@ip:port'
}
response = requests.get(url, proxies=proxies)

import requests

def test_proxy_ip(proxy_ip, target_url):
    proxies = {
        'http': 'http://' + proxy_ip,
        'https': 'http://' + proxy_ip
    }
    try:
        response = requests.get(target_url, proxies=proxies, timeout=5)
        if response.status_code == 200:
            return True
        else:
            return False
    except:
        return False

import random

USER_AGENTS = [
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.19582',
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:78.0) Gecko/20100101 Firefox/78.0',
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299',
]

def get_random_user_agent():
    return random.choice(USER_AGENTS)

headers = {
    'User-Agent': get_random_user_agent(),
    'Referer': 'https://www.douban.com',
    'Cookie': 'your_cookie'  # 实际使用时需替换为有效 Cookie
}

from selenium import webdriver
from selenium.webdriver.common.by import By
import time
import pickle

login_url = 'https://accounts.douban.com/passport/login?source=movie'
username = 'your_username'
password = 'your_password'
cookie_file = 'cookies.pkl'

# 启动浏览器
driver = webdriver.Chrome()
driver.maximize_window()
driver.implicitly_wait(10)

# 访问登录页面
driver.get(login_url)

# 输入用户名和密码
driver.find_element(By.ID, 'username').send_keys(username)
driver.find_element(By.ID, 'password').send_keys(password)

# 等待用户输入验证码
time.sleep(30)

# 点击登录按钮
driver.find_element(By.CLASS_NAME, 'account-form-field-submit ').click()

# 等待新页面加载完成
time.sleep(10)

# 保存 cookie 到文件
cookies = driver.get_cookies()
with open(cookie_file, 'wb') as f:
    pickle.dump(cookies, f)

# 关闭浏览器
driver.quit()

import requests
from bs4 import BeautifulSoup

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'
}

url = 'https://movie.douban.com/subject/1292052/'
response = requests.get(url, headers=headers)
html = response.text
soup = BeautifulSoup(html, 'html.parser')

# 查找长评和短评标签
long_comments = soup.select_one('#hot-comments > div > div.article > span')
short_comments = soup.select_one('#comments > div > h2 > span')

if long_comments and short_comments:
    long_comments_count = long_comments.text.replace('全部', '').replace('条', '').strip()
    short_comments_count = short_comments.text.replace('全部', '').replace('条', '').strip()
    print(f"长评：{long_comments_count}")
    print(f"短评：{short_comments_count}")

# 查找所有长评和短评内容
long_comments_list = soup.select('#hot-comments > div > div.article > div > div.comment > p')
short_comments_list = soup.select('#comments > div > div.comment > p')

for comment in long_comments_list:
    print(comment.text.strip())   
for comment in short_comments_list:
    print(comment.text.strip())

import requests
import json

session = requests.session()
url = 'https://accounts.douban.com/j/mobile/login/basic'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
    'Referer': 'https://accounts.douban.com/passport/login',
}
data = {
    'name': 'your_username',
    'password': 'your_password',
    'remember': 'false',
}
session.post(url, headers=headers, data=data)

uid = 'your_user_id'
url = 'https://movie.douban.com/subject_suggest?q=%E7%94%B5%E5%BD%B1'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
    'Referer': 'https://www.douban.com/',
}
response = session.get(url, headers=headers)
data = json.loads(response.text)
movie_id = data[0]['id']
url = f'https://movie.douban.com/subject/{movie_id}/'
response = session.get(url, headers=headers)
url = response.url + 'comments?start=0&limit=20&status=P&sort=new_score'
response = session.get(url, headers=headers)
data = response.text
print(data)

import requests
import json
import pymysql

# 连接数据库
try:
    db = pymysql.connect(host='localhost', user='root', password='123456', database='test')
    cursor = db.cursor()
except Exception as e:
    print(f"数据库连接失败：{e}")
    exit()

# 假设 result2 是去重后的数据列表
result2 = [] 
# ... (此处省略数据收集逻辑)

for item in result2:
    sql = "INSERT INTO movie_comment (id, user_name, rating, create_time, content) VALUES (%s, %s, %s, %s, %s)"
    cursor.execute(sql, (item['id'], item['user_name'], item['rating'], item['create_time'], item['content']))

db.commit()
db.close()

import requests
from bs4 import BeautifulSoup
import csv
import time
from random import randint

MOVIE_URL = 'https://movie.douban.com/subject/xxxxxx/'
CSV_FILE = 'douban.csv'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
    'Referer': MOVIE_URL,
}

proxies = ['http://xxx.xxx.xx.xx:xxxx', 'http://yyy.yyy.yy.yy:yyyy']
WAIT_TIME = 1

def get_html(url):
    try:
        proxy = {'http': proxies[randint(0, len(proxies)-1)]} if proxies else None
        response = requests.get(url, headers=headers, proxies=proxy)
        if response.status_code == 200:
            return response.text
    except requests.exceptions.RequestException as e:
        print(e)
        return None

def get_user_link(comment_soup):
    try:
        user_tag = comment_soup.find('span', class_='comment-info').find('a')
        user_link = user_tag.get('href')
        return user_link
    except:
        return None

def get_user_data(user_link):
    user_data = {}
    html = get_html(user_link)
    time.sleep(WAIT_TIME)
    if html:
        soup = BeautifulSoup(html, 'html.parser')
        try:
            type_tags = soup.find_all('span', class_='tags-body')
            type_list = [t.text.strip() for t in type_tags]
            user_data['type'] = ','.join(type_list)
        except:
            user_data['type'] = ''
        
        user_data['top_movies'] = ''
        try:
            movie_tags = soup.find_all('div', class_='info')
            movie_list = []
            for tag in movie_tags:
                movie_name_tag = tag.find('a', class_='title')
                if movie_name_tag and movie_name_tag['href'] != MOVIE_URL:
                    movie_list.append(movie_name_tag.text)
                if len(movie_list) >= 5:
                    break
            user_data['top_movies'] = ','.join(movie_list)
        except:
            pass
    return user_data

def main():
    print('开始爬取...')
    comments = []
    page = 0
    while True:
        page += 1
        url = MOVIE_URL + 'comments?start=' + str((page-1) * 20)
        html = get_html(url)
        time.sleep(WAIT_TIME)
        if html:
            soup = BeautifulSoup(html, 'html.parser')
            comment_tags = soup.find_all('div', class_='comment-item')
            if comment_tags:
                comments.extend(comment_tags)
            else:
                break
        else:
            break

    user_data_list = []
    for comment in comments:
        user_link = get_user_link(comment)
        if user_link:
            user_data = get_user_data(user_link)
            user_data_list.append(user_data)
            print('已爬取 {} 个用户观影数据'.format(len(user_data_list)))
            time.sleep(WAIT_TIME)

    with open(CSV_FILE, mode='w', encoding='utf-8', newline='') as f:
        fieldnames = ['type', 'top_movies']
        writer = csv.DictWriter(f, fieldnames=fieldnames)
        writer.writeheader()
        for data in user_data_list:
            writer.writerow(data)

    print('爬取完成，数据已保存至 {} 文件中。'.format(CSV_FILE))

if __name__ == '__main__':
    main()

Python 豆瓣电影评论爬虫实战与数据分析

Python 豆瓣电影评论爬虫实战与数据分析

一、配置环境

1.1 安装 Python

1.2 安装核心依赖库

1.3 安装可视化与分析库

二、登录豆瓣网与反爬策略

2.1 获取代理 IP

2.2 测试代理 IP 是否可用

2.3 设置大量请求头随机使用

2.4 登录豆瓣网

三、爬取某一部热门电影数据

3.1 爬取全部长、短评论

3.2 获取用户观影数据

3.3 存入数据库

四、实战代码示例

五、总结

更多推荐文章

相关免费在线工具

Python 豆瓣电影评论爬虫实战与数据分析

Python 豆瓣电影评论爬虫实战与数据分析

一、配置环境

1.1 安装 Python

1.2 安装核心依赖库

1.3 安装可视化与分析库

二、登录豆瓣网与反爬策略

2.1 获取代理 IP

2.2 测试代理 IP 是否可用

2.3 设置大量请求头随机使用

2.4 登录豆瓣网

三、爬取某一部热门电影数据

3.1 爬取全部长、短评论

3.2 获取用户观影数据

3.3 存入数据库

四、实战代码示例

五、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具