电影推荐与票房预测系统：基于 Python + Flask + 机器学习

1、项目介绍

技术栈

本项目以 Python 为核心开发语言，整合 Flask 框架搭建后端服务，采用 MySQL 数据库完成数据存储。借助 requests 爬虫库采集电影相关数据，通过 Echarts 可视化工具实现数据大屏展示；引入 Surprise 库 KNNWithZScore 算法实现电影推荐、Stacking 集成学习（决策树/Lasso/随机森林/GDBT）提升票房预测精度，搭配 HTML 完成前端页面呈现。

功能模块

数据采集与存储模块
电影票房预测模块
电影推荐模块
数据可视化展示模块
用户角色与功能分配模块
电影信息管理模块
用户信息管理模块
后台数据管理模块

项目概述

本系统聚焦解决用户选片难、行业票房预测盲目等痛点。通过爬虫采集并清洗电影数据存入 MySQL；利用 Stacking 集成学习提升票房预测精度，以 KNNWithZScore 算法实现个性化推荐；通过 Echarts 大屏呈现多维度数据。系统支持三级角色登录，普通用户可获取推荐、浏览电影，管理员负责信息管理，后台管理员维护系统运行，实现'数据 - 算法 - 功能'的全流程闭环。

2、项目界面

（1）电影数据可视化大屏

多板块布局呈现各类数据：涵盖电影类型数量统计、上映国家分布、年度数量与评分趋势，同时展示参演演员排名、随机电影信息及票房 Top 榜单，通过图表与列表结合的形式直观呈现多维度电影数据。

电影数据可视化大屏

（2）电影评论数据可视化分析大屏

包含年度评论用户数量统计、评论内容的词云分析，以及最受欢迎电影的分布情况，下方展示不同主题的评论关键词词云。通过图表与词云结合的形式，直观呈现评论数据的时间趋势、内容特征及关联电影热度。

电影评论数据可视化分析大屏

（3）电影数据

以表格形式集中展示电影的多类信息，涵盖编号、名称、评分、上映时间等字段。左侧导航栏支持跳转至分析大屏、预测、推荐等功能模块，既实现了电影信息的统一呈现，也为管理员提供了便捷的信息查阅入口。

电影数据

（4）电影票房预测

提供电影选择的下拉交互入口，用户选定目标电影后，系统通过集成学习算法计算并展示对应的票房预测结果。整体实现了'选择电影 - 触发预测 - 获取结果'的简洁流程。

电影票房预测

import re import os import matplotlib.pyplot as plt import numpy as np import pandas as pd from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor from sklearn.metrics import make_scorer, mean_squared_error from sklearn.metrics import r2_score from sklearn.model_selection import GridSearchCV, train_test_split from sklearn.model_selection import KFold from sklearn.tree import DecisionTreeRegressor from sklearn.linear_model import LinearRegression as LR, Lasso import joblib import seaborn as sns model_save_path = r'./app/dataset/testModel/' if not os.path.exists(model_save_path): os.makedirs(model_save_path) data = pd.read_csv(r"./app/dataset/ana_result/piaofang_info.csv") data = data.iloc[:, [2, 3, 4, 5, 7, 9, 10, 11]] X = data.iloc[:, 0:7] y = data.iloc[:, 7].apply(lambda x: x / 10000) # 标签经过 log1p 转换，使其更偏向于正态分布 y = np.log1p(y) # 数据集划分 train_X, test_X, train_y, test_y = train_test_split(X, y, test_size=0.2, random_state=1) oof_df = pd.DataFrame() test_oof_df = pd.DataFrame() def performance_metric(y_true, y_predict): """ Calculates and returns the performance score between true and predicted values based on the metric chosen. """ # 计算 'y_true' 与 'y_predict' 的 r2 值 score = r2_score(y_true, y_predict) # 返回这一分数 return score def fit_dtr_model(X, y): cross_validator = KFold(n_splits=5) regressor = DecisionTreeRegressor(random_state=1) # Create a dictionary for the parameter 'max_depth' with a range from 1 to 10 params = {'max_depth': [i for i in range(1, 11)]} # Transform 'performance_metric' into a scoring function using 'make_scorer' scoring_fnc = make_scorer(performance_metric) # Create the grid search cv object --> GridSearchCV() grid = GridSearchCV(regressor, params, scoring=scoring_fnc, cv=cross_validator) # Fit the grid search object to the data to compute the optimal model grid = grid.fit(X, y) dtr_max_depth = grid.best_estimator_.get_params()['max_depth'] # Return the optimal model after fitting the data return dtr_max_depth def fit_decision_tree_model_forcast(): # 进行决策树预测模型的训练 dtr_max_depth = fit_dtr_model(X, y) dtr_regressor = DecisionTreeRegressor(max_depth=dtr_max_depth) dtr_regressor.fit(X, y) pred_y = dtr_regressor.predict(test_X) test_oof_df['dtr'] = pred_y r2_score_val = performance_metric(test_y, pred_y) rmse_score = np.sqrt(mean_squared_error(pred_y, test_y)) print('决策树回归模型评价指标为：') print("The R2 score is ", r2_score_val) print('均方差', rmse_score) joblib.dump(dtr_regressor, model_save_path + 'dtr_model.pkl') return rmse_score def fit_lasso_model_forcast(): # 进行 Lasso 预测模型的训练 lasso_regressor = Lasso() lasso_regressor.fit(X, y) pred_y = lasso_regressor.predict(test_X) test_oof_df['lasso'] = pred_y r2_score_val = performance_metric(test_y, pred_y) rmse_score = np.sqrt(mean_squared_error(pred_y, test_y)) print('Lasso 回归模型评价指标为：') print("The R2 score is ", r2_score_val) print('均方差', rmse_score) joblib.dump(lasso_regressor, model_save_path + 'lasso_model.pkl') return rmse_score def fit_random_forest_regression_model(): rf_model = RandomForestRegressor() rf_model.fit(X, y) pred_y = rf_model.predict(test_X) test_oof_df['rf'] = pred_y r2_score_val = performance_metric(pred_y, test_y) rmse_score = np.sqrt(mean_squared_error(pred_y, test_y)) print('随机森林模型评价指标为：') print("The R2 score is ", r2_score_val) print('均方差', rmse_score) joblib.dump(rf_model, model_save_path + 'rf_model.pkl') return rmse_score def fit_gdbt_model(): gdbt_model = GradientBoostingRegressor() gdbt_model.fit(X, y) pred_y = gdbt_model.predict(test_X) test_oof_df['gdbt'] = pred_y r2_score_val = performance_metric(pred_y, test_y) rmse_score = np.sqrt(mean_squared_error(pred_y, test_y)) print('GDBT 模型评价指标为：') print("The R2 score is ", r2_score_val) print('均方差', rmse_score) joblib.dump(gdbt_model, model_save_path + 'gdbt_model.pkl') return rmse_score def fit_stacking_model(): lr_model = LR() lr_model.fit(test_oof_df, test_y) pred_y = lr_model.predict(test_oof_df) r2_score_val = performance_metric(pred_y, test_y) rmse_score = np.sqrt(mean_squared_error(pred_y, test_y)) print('Staking 模型评价指标为：') print("The R2 score is ", r2_score_val) print('均方差', rmse_score) joblib.dump(lr_model, model_save_path + 'stacking_model.pkl') return rmse_score def forecast_piaofang(para): para = pd.DataFrame(para) # 加载决策树预测模型 dtr_model = joblib.load(model_save_path + 'dtr_model.pkl') dtr_pred = dtr_model.predict(para) print("决策树预测票房%s万" % np.expm1(dtr_pred[0])) # 加载 Lasso 预测模型 lasso_model = joblib.load(model_save_path + 'lasso_model.pkl') lasso_pred = lasso_model.predict(para) print("Lasso 预测票房%s万" % np.expm1(lasso_pred[0])) # 加载随机森林预测模型 rf_model = joblib.load(model_save_path + 'rf_model.pkl') rf_pred = rf_model.predict(para) print("随机森林预测票房%s万" % np.expm1(rf_pred[0])) # 加载 GDBT 预测模型 gdbt_model = joblib.load(model_save_path + 'gdbt_model.pkl') gdbt_pred = gdbt_model.predict(para) print("GDBT 预测票房%s万" % np.expm1(gdbt_pred[0])) return [[dtr_pred[0], lasso_pred[0], rf_pred[0], gdbt_pred[0]]]

# 用于训练多个模型并计算它们的 RMSE（均方根误差）分数，并将结果保存到一个 CSV 文件中。 def train_model(): dtr_rmse = fit_decision_tree_model_forcast() # 决策树 lasso_rmse = fit_lasso_model_forcast() # Lasso rf_rmse = fit_random_forest_regression_model() # 随机森林 gdbt_rmse = fit_gdbt_model() # GDBT lr_rmse = fit_stacking_model() # 将返回的堆叠模型的 RMSE 分数赋值给变量 rmse_result = pd.DataFrame(index=["决策树", "Lasso", "随机森林", "GDBT", "Stacking"]) rmse_result['rmse_score'] = [dtr_rmse, lasso_rmse, rf_rmse, gdbt_rmse, lr_rmse] # 将之前计算得到的各个模型的 RMSE 分数添加到 rmse_result 数据帧中的 rmse_score 列中。 rmse_result.to_csv("../dataset/testModel/rmse_result.csv", encoding='utf-8', index=False) # 将 rmse_result 数据帧保存为一个 CSV 文件 def test_model(): # 1965, 12, 8.9, 1, 3, 29, 132 # 1295124,辛德勒的名单，1993,11,9.6,3,"['剧情', '历史', '战争']",1,['美国'],48,195,322161245 # 10876425,印式英语，2023,02,8.1,3,"['剧情', '喜剧', '家庭']",1,['印度'],13,133,10299150 # 35267208,流浪地球 2,2023,01,8.4,3,"['科幻', '冒险', '灾难']",1,['中国大陆'],50,173,8394962 test_para = pd.DataFrame([[2022, 2, 8.4, 3, 1, 50, 173]]) test_piaofang = 8394962 / 10000 print("真实票房%s万" % test_piaofang) pred_list = forecast_piaofang(test_para) # 加载线性回归预测模型 stacking_model = joblib.load(model_save_path + 'stacking_model.pkl') piaofang = stacking_model.predict(pred_list)[0] piaofang = round(np.expm1(piaofang), 2) print("Stacking 预测票房%s万" % piaofang) return piaofang def forecast(para_list): # 根据传入的参数列表，进行票房预测 pred_list = forecast_piaofang(para_list) # 加载线性回归预测模型 stacking_model = joblib.load(model_save_path + 'stacking_model.pkl') piaofang = stacking_model.predict(pred_list)[0] piaofang = round(np.expm1(piaofang), 2) print("Stacking 预测票房%s万" % piaofang) return "预测票房%s万 (美元)" % piaofang def vis_relation(x1, y1, name1): fig = plt.figure(1, figsize=(9, 5)) # plt.plot([0,400000000],[0,400000000],c="green") plt.scatter(x1, y1, c=['green'], marker='o') plt.grid() plt.xlabel("piaofang", fontsize=10) plt.ylabel(name1, fontsize=10) plt.title("Link between piaofang and %s" % name1, fontsize=10) plt.savefig('../dataset/pictures/piaofang_%s.png' % name1) plt.close() # 分析票房预测使用的所有属性与票房之间的关系并绘制散点图，分析所有属性之间的相关度绘制热力图 def ana_columns(): year_list = list(data.iloc[:, 0]) month_list = list(data.iloc[:, 1]) rating_list = list(data.iloc[:, 2]) movie_type_count_list = list(data.iloc[:, 3]) country_count_list = list(data.iloc[:, 4]) actor_count_list = list(data.iloc[:, 5]) runtime_list = list(data.iloc[:, 6]) piaofang_list = list(data.iloc[:, 7]) vis_relation(piaofang_list, year_list, 'year') vis_relation(piaofang_list, month_list, 'month') vis_relation(piaofang_list, rating_list, 'rating') vis_relation(piaofang_list, movie_type_count_list, 'movie_type_count') vis_relation(piaofang_list, country_count_list, 'country_count') vis_relation(piaofang_list, actor_count_list, 'actor_count') vis_relation(piaofang_list, runtime_list, 'runtime') # 相关关系可视化 col = ['year', 'month', 'rating', 'movie_type_count', 'country_count', 'actor_count', 'runtime', 'piaofang'] plt.subplots(figsize=(14, 10)) corr = data.corr() print(corr) corr.to_csv("../dataset/ana_result/piaofang_info_corr.csv", encoding='utf-8') sns.heatmap(corr, xticklabels=col, yticklabels=col, linewidths=.5, cmap="Reds") plt.savefig('../dataset/pictures/corr.png') if __name__ == '__main__': # 四个机器学习算法构建票房预测模型，然后 Stacking 集成所有的算法模型，构建最终的票房预测模型 train_model() # 模型测试 piaofang = test_model() # 分析票房预测使用的所有属性与票房之间的关系并绘制散点图，分析所有属性之间的相关度绘制热力图 ana_columns()

电影推荐与票房预测系统：基于 Python + Flask + 机器学习