数据集简介
数据集包含一个家庭 6 个月的用电数据,收集于 2007 年 1 月至 2007 年 6 月。这些数据包括全球有功功率、全球无功功率、电压、全球强度、分项计量等信息。该数据集共有 260,640 个测量值。
| 列名 | 说明 |
|---|---|
| Date | 日期 |
| Time | 时间 |
| Globalactivepower | 该家庭所消耗的总有功功率(千瓦) |
| Globalreactivepower | 该家庭消耗的总无功功率(千瓦) |
| Voltage | 向家庭输送电力的电压(伏特) |
| Global_intensity | 输送到家庭的平均电流强度(安培) |
| Submetering1 | 厨房消耗的有功功率(千瓦) |
| Submetering2 | 洗衣房所消耗的有功功率(千瓦) |
| Submetering3 | 电热水器和空调所消耗的有功功率(千瓦) |
探索性分析
导入数据集并读取头部:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
data_path = "./household_power_consumption.csv"
df = pd.read_csv(data_path, index_col='index')
df.head()
![运行结果示意图]
对 DataFrame 中的数值列进行统计:
df.describe()
![运行结果示意图]
查看 DataFrame 中各列的数据类型:
df.dtypes
![运行结果示意图]
转换数据格式:
from tqdm.auto import tqdm
from ipywidgets import HBox, FloatProgress, HTML
# 将'Date'列转换为日期时间格式
df['Date'] = pd.DatetimeIndex(df['Date'])
# 定义需要转换为数字的列
make_em_num = ['Global_active_power', 'Global_reactive_power', 'Voltage', 'Global_intensity', , , ]
():
:
(string)
:
()
column tqdm(make_em_num):
df[column] = df[column].apply( item: floating(item))
HBox(children=(FloatProgress(value=, =), HTML(value=)))


