Python 数据分析通用全流程指南 | 极客日志

PythonAI算法

Python 数据分析通用全流程指南

Python 数据分析的通用流程，涵盖数据导入导出、清洗及类型转换。支持 CSV 和 JSON 格式的读取与保存，详细说明了缺失值的检测、删除与填充方法，以及重复值的处理和常见数据类型的转换规则，旨在帮助开发者规范数据处理步骤。

CloudNative发布于 2026/3/29更新于 2026/7/2352 浏览

一、数据导入（/ 导出）

通过各个渠道汇总的符合研究范畴的数据，通常整合到 Excel 中。此时对于 Python 层面的操作来说，需要将 Excel 导入以便后续使用编程手法处理数据。

1. .csv 文件

.csv 文件是表格的一种存储形式，在 Excel 或 WPS - Excel 中以表格形式展示，但实际上它是'纯文本'文件，不依赖于 Excel 环境，用记事本、编译器都能直接打开。类比我们常见的'表格'，它本质上是每行不同单元格中的数值用','分隔后存储的，也就是每行是一条'记录'，每列是一个'字段'且用','分隔。

一般格式：

姓名，年龄，城市，薪资
张三，25，北京，8000.5
李四，30，上海，10000.0
王五，28，广州，9500.8

优点：

**体积小：**没有格式、图片、宏，文件比 Excel 小很多。具备轻量、打开快、传输方便的特点；
**通用性极强：**几乎所有编程语言、数据库、表格软件都支持。便于程序读写（Python、Java、SQL 等都很友好）。

缺点：

只存数据，不保存格式（字体、颜色、公式、宏）;
不能有复杂结构：不支持多工作表、合并单元格；
字符、编码问题：中文容易乱码，需注意用 UTF-8 等编码；
数据里有逗号 / 换行时，需要用引号包裹，处理稍麻烦。

**格式转换：**文件 → 另存为 → CSV (逗号分隔)(*.csv) → 保存

文章配图

文件读取：变量名 = 库名.read_csv("文件路径")

文件导出：变量名.to_csv("存储路径")（导出为 .csv 文件，也可以导出为其它的文件格式）

文章配图

2. .json 文件

.json 文件是一种'纯文本'文件，其存储独立于编程语言的轻量级数据交换格式，用来结构化地存储和传输数据。常用于前后端交互、配置文件、数据备份等场景。

一般格式：

{
  "user": {

数据类型	说明
int32	整数类型（32 位）
int64	整数类型（64 位）
float64	浮点数类型（64 位）
object	对象类型（字符串 / 混合类型）

Python 数据分析通用全流程指南

一、数据导入（/ 导出）

1. .csv 文件

2. .json 文件

更多推荐文章

相关免费在线工具

二、数据清洗

1. 缺失值处理

2. 重复值处理

3. 数据类型转换

更多推荐文章

相关免费在线工具

Python 数据分析通用全流程指南

一、数据导入（/ 导出）

1. .csv 文件

2. .json 文件

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

二、数据清洗

1. 缺失值处理

2. 重复值处理

3. 数据类型转换

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具