前言
在开始学习具体的数据分析工具之前,理解相关概念的背景至关重要。人工智能(Artificial Intelligence, AI)、机器学习(Machine Learning, ML)和深度学习(Deep Learning, DL)之间的关系常被混淆。
广义上的人工智能泛指通过计算机实现人的思维,使机器像人一样决策。机器学习是实现人工智能的一种核心技术,它利用算法从数据中学习规律以解决特定问题。深度学习则是机器学习的一个分支,主要基于神经网络模型,在处理图像、语音等富媒体数据时表现优异,例如 AlphaGo 战胜人类围棋选手就是深度学习的典型应用。
简单来说,关系层级为:人工智能包含机器学习,机器学习包含深度学习。对于简单问题(如奖学金评选、业绩统计),通常使用传统的数据分析即可;而对于复杂问题(如商品推荐、人脸识别),则需要借助机器学习或深度学习算法。
Pandas 简介
Pandas 是 Python 语言中用于数据分析的核心库之一。它的名字来源于'Panel Data'(面板数据)和'Python Data Analysis'的组合。Pandas 基于 NumPy 构建,提供了高性能、易于使用的数据结构和数据分析工具。
核心功能
- 数据导入:支持 CSV、JSON、SQL、Excel 等多种格式。
- 数据处理:提供归并、重塑、清洗、特征工程等功能。
- 广泛应用:涵盖学术、金融、统计学等多个领域。
安装后,通常按以下习惯导入:
import pandas as pd
Pandas 数据结构
Pandas 主要有两种核心数据结构:Series 和 DataFrame。
Series - 序列
Series 是一维数组,类似表格中的一列。它可以存储任何数据类型,由索引(index)和数据值组成。
创建示例:
s = pd.Series([3, -5, 7, 4], index=['a', 'b', 'c', 'd'])
参数说明:
data:一组数据(ndarray 类型)。index:数据索引标签,默认从 0 开始。dtype:数据类型,默认自动推断。name:设置序列名称。
DataFrame - 数据框
DataFrame 是二维表格型数据结构,包含有序的列,每列可以是不同的数据类型(数值、字符串、布尔值等)。它既有行索引也有列索引,可视为由多个 Series 组成的字典。
创建示例:
data = {
'Country': ['Belgium', 'India', 'Brazil'],
'Capital': ['Brussels', 'New Delhi', 'Brasília'],
: [, , ]
}
df = pd.DataFrame(data, columns=[, , ])


