Python 数据分析入门:基础统计与 Excel 处理
在医疗卫生机构及各类科研场景中,经常需要对大量的数据进行分析和挖掘。Python 具有简洁、高效、易学易用的特点,能够帮助快速处理数据,发现规律并制定相应策略。本文将介绍使用 Python 进行基础医学统计数据分析的简单步骤。
一、Python 与开发环境获取与安装
与 R 语言类似,Python 也有其集成开发环境(IDE),如 PyCharm。PyCharm 提供调试、语法高亮、项目管理、代码跳转、智能提示等功能。此外,Anaconda 是一个流行的 Python 发行版,包含大量科学计算和机器学习模块。
1. 安装 Python
登录 Python 官网下载最新版本的安装包:https://www.python.org/
2. 安装 IDE
登录 PyCharm 官网下载:https://www.jetbrains.com/pycharm/。选择 Free Community(免费社区版)即可满足日常需求,专业版可试用。
3. 验证安装
打开 PyCharm,将输入法调整为英文格式,输入第一行代码:
print("Hello World")
点击运行,若输出 Hello World 即代表安装成功。可进行简单运算测试,例如:
a = 3
b = 4
result = a * b
print(result)
出现 "Process finished with exit code 0" 代表代码运行成功。
二、简单的统计分析
Python 的数据分析主要依赖第三方程序包,以 SciPy 库为例。
1. 卡方检验
卡方检验用于计算两种或多种分类变量之间的独立性。我们需要 scipy.stats 中的 chi2_contingency 函数。
from scipy import stats
import numpy as np
# 示例四格表数据
observed = np.array([[50, 30], [20, 40]])
chi2, p, dof, expected = stats.chi2_contingency(observed)
print(f"卡方统计量:{chi2}")
print(f"P 值:{p}")
print(f"自由度:{dof}")
()


