基于 Flask 与机器学习的电影推荐及票房预测系统

项目概述

在海量影视内容面前，用户往往面临选片困难，而行业内部对于票房走势的预判也常缺乏数据支撑。本项目旨在构建一个整合数据采集、智能推荐与票房预测的综合系统，通过技术手段解决上述痛点。

系统采用 Python 作为核心开发语言，后端依托 Flask 框架搭建 Web 服务，MySQL 负责持久化存储。前端结合 HTML 与 Echarts 实现可视化大屏展示。算法层面，引入 Surprise 库中的 KNNWithZScore 算法进行个性化推荐，并采用 Stacking 集成学习策略（融合决策树、Lasso、随机森林与 GDBT）显著提升票房预测的精度。

技术架构

开发语言：Python
Web 框架：Flask
数据库：MySQL
爬虫工具：requests
可视化工具：Echarts, Matplotlib, Seaborn
机器学习：Scikit-learn (Stacking, RandomForest, Lasso, etc.), Surprise
数据处理：Pandas, NumPy

功能模块详解

1. 数据采集与存储

系统首先通过 requests 爬虫抓取互联网上的电影原始数据，经过清洗、规整后存入 MySQL 数据库。这一步骤为后续的预测模型和推荐算法提供了完整且规范的数据源支撑。

2. 电影票房预测

这是系统的核心亮点之一。用户只需在下拉框中选择目标电影，系统便会调用训练好的 Stacking 集成学习模型计算票房。该流程实现了从'选择电影'到'获取预测结果'的闭环，为行业决策提供直观参考。

3. 电影推荐

针对用户个性化需求，系统利用 KNNWithZScore 算法生成 Top10 推荐列表。用户选定一部电影后，即可看到与其风格或受众高度相似的其他影片，有效解决了'不知道看什么'的问题。

4. 数据可视化展示

为了更直观地呈现数据特征，系统设计了两个主要的大屏界面：

电影数据大屏：涵盖类型统计、国家分布、年度评分趋势、演员排名及票房 Top 榜单。
评论分析大屏：包含年度评论用户数、词云分析及热门电影分布，帮助用户快速把握舆论热度。

5. 权限管理

系统支持三级角色登录（普通用户、管理员、后台管理员）。普通用户可浏览数据和获取推荐；管理员负责电影信息的增删维护；后台管理员则专注于系统核心数据的完整性保障。

界面展示

电影数据可视化大屏

多板块布局呈现各类关键指标，包括电影类型数量、上映国家分布、年度数量与评分趋势等。图表与列表结合的形式让用户能迅速掌握行业特征。

电影数据可视化大屏

票房预测与推荐交互

提供简洁的下拉交互入口，用户选定目标电影后，系统即时反馈预测结果或推荐列表。左侧导航栏支持在不同功能模块间快速切换。

电影票房预测

电影推荐

import re import os import matplotlib.pyplot as plt import numpy as np import pandas as pd from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor from sklearn.metrics import make_scorer, mean_squared_error from sklearn.metrics import r2_score from sklearn.model_selection import GridSearchCV, train_test_split from sklearn.model_selection import KFold from sklearn.tree import DecisionTreeRegressor from sklearn.linear_model import LinearRegression as LR, Lasso import joblib import seaborn as sns # 设置模型保存路径 model_save_path = r'./app/dataset/testModel/' if not os.path.exists(model_save_path): os.makedirs(model_save_path) # 读取数据并选取关键特征 data = pd.read_csv(r"./app/dataset/ana_result/piaofang_info.csv") data = data.iloc[:, [2, 3, 4, 5, 7, 9, 10, 11]] X = data.iloc[:, 0:7] # 标签经过 log1p 转换，使其更偏向于正态分布 y = data.iloc[:, 7].apply(lambda x: x / 10000) y = np.log1p(y) # 数据集划分 train_X, test_X, train_y, test_y = train_test_split(X, y, test_size=0.2, random_state=1) oof_df = pd.DataFrame() test_oof_df = pd.DataFrame() def performance_metric(y_true, y_predict): """ Calculates and returns the performance score between true and predicted values based on the metric chosen. """ # 计算 'y_true' 与 'y_predict' 的 r2 值 score = r2_score(y_true, y_predict) return score def fit_dtr_model(X, y): cross_validator = KFold(n_splits=5) regressor = DecisionTreeRegressor(random_state=1) # Create a dictionary for the parameter 'max_depth' with a range from 1 to 10 params = {'max_depth': [i for i in range(1, 11)]} # Transform 'performance_metric' into a scoring function using 'make_scorer' scoring_fnc = make_scorer(performance_metric) # Create the grid search cv object --> GridSearchCV() grid = GridSearchCV(regressor, params, scoring=scoring_fnc, cv=cross_validator) # Fit the grid search object to the data to compute the optimal model grid = grid.fit(X, y) dtr_max_depth = grid.best_estimator_.get_params()['max_depth'] # Return the optimal model after fitting the data return dtr_max_depth def fit_decision_tree_model_forcast(): # 进行决策树预测模型的训练 dtr_max_depth = fit_dtr_model(X, y) dtr_regressor = DecisionTreeRegressor(max_depth=dtr_max_depth) dtr_regressor.fit(X, y) pred_y = dtr_regressor.predict(test_X) test_oof_df['dtr'] = pred_y r2_score_val = performance_metric(test_y, pred_y) rmse_score = np.sqrt(mean_squared_error(pred_y, test_y)) print('决策树回归模型评价指标为：') print("The R2 score is ", r2_score_val) print('均方差', rmse_score) joblib.dump(dtr_regressor, model_save_path + 'dtr_model.pkl') return rmse_score def fit_lasso_model_forcast(): # 进行 Lasso 预测模型的训练 lasso_regressor = Lasso() lasso_regressor.fit(X, y) pred_y = lasso_regressor.predict(test_X) test_oof_df['lasso'] = pred_y r2_score_val = performance_metric(test_y, pred_y) rmse_score = np.sqrt(mean_squared_error(pred_y, test_y)) print('Lasso 回归模型评价指标为：') print("The R2 score is ", r2_score_val) print('均方差', rmse_score) joblib.dump(lasso_regressor, model_save_path + 'lasso_model.pkl') return rmse_score def fit_random_forest_regression_model(): rf_model = RandomForestRegressor() rf_model.fit(X, y) pred_y = rf_model.predict(test_X) test_oof_df['rf'] = pred_y r2_score_val = performance_metric(pred_y, test_y) rmse_score = np.sqrt(mean_squared_error(pred_y, test_y)) print('随机森林模型评价指标为：') print("The R2 score is ", r2_score_val) print('均方差', rmse_score) joblib.dump(rf_model, model_save_path + 'rf_model.pkl') return rmse_score def fit_gdbt_model(): gdbt_model = GradientBoostingRegressor() gdbt_model.fit(X, y) pred_y = gdbt_model.predict(test_X) test_oof_df['gdbt'] = pred_y r2_score_val = performance_metric(pred_y, test_y) rmse_score = np.sqrt(mean_squared_error(pred_y, test_y)) print('GDBT 模型评价指标为：') print("The R2 score is ", r2_score_val) print('均方差', rmse_score) joblib.dump(gdbt_model, model_save_path + 'gdbt_model.pkl') return rmse_score def fit_stacking_model(): lr_model = LR() lr_model.fit(test_oof_df, test_y) pred_y = lr_model.predict(test_oof_df) r2_score_val = performance_metric(pred_y, test_y) rmse_score = np.sqrt(mean_squared_error(pred_y, test_y)) print('Staking 模型评价指标为：') print("The R2 score is ", r2_score_val) print('均方差', rmse_score) joblib.dump(lr_model, model_save_path + 'stacking_model.pkl') return rmse_score def forcast_piaofang(para): para = pd.DataFrame(para) # 加载决策树预测模型 dtr_model = joblib.load(model_save_path + 'dtr_model.pkl') dtr_pred = dtr_model.predict(para) print("决策树预测票房%s万" % np.expm1(dtr_pred[0])) # 加载 Lasso 预测模型 lasso_model = joblib.load(model_save_path + 'lasso_model.pkl') lasso_pred = lasso_model.predict(para) print("Lasso 预测票房%s万" % np.expm1(lasso_pred[0])) # 加载随机森林预测模型 rf_model = joblib.load(model_save_path + 'rf_model.pkl') rf_pred = rf_model.predict(para) print("随机森林预测票房%s万" % np.expm1(rf_pred[0])) # 加载 GDBT 预测模型 gdbt_model = joblib.load(model_save_path + 'gdbt_model.pkl') gdbt_pred = gdbt_model.predict(para) print("GDBT 预测票房%s万" % np.expm1(gdbt_pred[0])) return [[dtr_pred[0], lasso_pred[0], rf_pred[0], gdbt_pred[0]]]

基于 Flask 与机器学习的电影推荐及票房预测系统

项目概述

技术架构

功能模块详解

1. 数据采集与存储

2. 电影票房预测

3. 电影推荐

4. 数据可视化展示

5. 权限管理

界面展示

电影数据可视化大屏

票房预测与推荐交互

更多推荐文章

相关免费在线工具

算法实现细节

核心代码解析

更多推荐文章

相关免费在线工具

基于 Flask 与机器学习的电影推荐及票房预测系统

项目概述

技术架构

功能模块详解

1. 数据采集与存储

2. 电影票房预测

3. 电影推荐

4. 数据可视化展示

5. 权限管理

界面展示

电影数据可视化大屏

票房预测与推荐交互

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

算法实现细节

核心代码解析

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具