数据集来源:Household Electricity Consumption | Kaggle
数据集简介
240000-household-electricity-consumption-records 数据集包含了一个家庭 6 个月的用电数据,收集于 2007 年 1 月至 2007 年 6 月。这些数据包括全球有功功率、全球无功功率、电压、全球强度、分项计量 1(厨房)、分项计量 2(洗衣房)和分项计量 3(电热水器和空调)等信息。该数据集共有 260,640 个测量值。
| 列名 | 说明 |
|---|---|
| Date | 日期 |
| Time | 时间 |
| Globalactivepower | 该家庭所消耗的总有功功率(千瓦) |
| Globalreactivepower | 该家庭消耗的总无功功率(千瓦) |
| Voltage | 向家庭输送电力的电压(伏特) |
| Global_intensity | 输送到家庭的平均电流强度(安培) |
| Submetering1 | 厨房消耗的有功功率(千瓦) |
| Submetering2 | 洗衣房所消耗的有功功率(千瓦) |
| Submetering3 | 电热水器和空调所消耗的有功功率(千瓦) |
探索性分析
导入数据集并读取头部
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
data_path = "./household_power_consumption.csv"
df = pd.read_csv(data_path, index_col='index')
df.head()

面向特定客户时可将列名替换为中文
# 将列名替换为中文
# df.rename(columns={
# 'Date': '日期',
# 'Time': '时间',
# 'Global_active_power': '有功功率',
# 'Global_reactive_power': '无功功率',
# 'Voltage': '电压',
# 'Global_intensity': '电流',












