前言
Python 和 R 都是数据科学的不错选择,但它们各有利弊。如果你是数据科学的新手,也许其中有一个更适合你;即使你已经掌握了其中一个,学习另一个语言可能仍然是值得的。
使用 Python 和 R,你都可以完成大部分数据科学任务,能力本身没有争议,但其他细节因素才是选择的关键。这些因素包括工具对特定任务的便利性、学习难度以及带来的工作机会差异等。
你的背景
如果你是数据科学新手,考虑背景是一个简单的方法。如果你有多年编码经验,学习新编程语言并不困难;如果过去几乎没有使用过 Excel 或 IBM SPSS 等数据处理工具,则需要慎重考虑。
R 语言由统计学家创建,主要用于统计计算,被数据挖掘开发者、生物信息学家等专业人员使用。Python 是通用语言,用于构建 GUI、开发游戏、网站等,软件工程师、Web 开发人员、数据分析师和业务分析师等专业人士广泛使用。
如果你的背景来自 Excel、SAS 或 SPSS,R 可能更容易上手;如果你已使用其他编程语言并形成了编程思维,Python 会更容易上手。
流行度与就业
工具的流行度是学习的重要因素。Google Trends 数据显示,过去 5 年全球对'python data science'的兴趣高于'r data science',在数据科学领域 Python 更受欢迎。
招聘方面,包含'数据科学'和'R'的职位通常要求'研究'、'SQL'和'统计'技能;而包含'数据科学'和'Python'的职位则更多涉及'机器学习'、'AWS'和'Spark'等工具。
工具对比
数据科学工作流程涉及数据收集、挖掘和可视化。
数据收集:两者都支持 CSV 和 JSON 格式。R 允许将 Minitab 或 SPSS 文件转换为数据集。两者都支持网络爬虫,但 Python 拥有更成熟的工具如 Selenium 和 Scrapy 框架。
数据挖掘:Python 主要使用 Pandas 和 Numpy。R 有不同的包来构建数据挖掘。
数据可视化:Python 可使用 Pandas 制作基本图形,高级可视化需学习 Matplotlib 和 Seaborn,语法较难且美观度一般。R 内置标准图形支持,并提供 ggplot2 等高级工具,图形的品质和美感通常更好。
结论
有些人选择 R 是因为其强大的统计特性和出色的可视化功能;另一些人喜欢 Python 是因为其多功能及灵活性,便于快速迭代。
如果你已经掌握其中一个语言,学习另一个也是有意义的,因为这能增加工作机会。


