Python + Linux 构建高可用数据采集服务

最近在帮学弟学妹们看毕设项目，发现一个挺普遍的现象：很多用 Python 写 Linux 后台服务的项目，比如数据采集、定时爬虫、API 服务等，开发时在本地跑得好好的，一到部署阶段就问题频出。要么进程莫名挂掉，要么日志文件把磁盘撑满，要么服务器一重启服务就起不来了。这其实不是 Python 或 Linux 的问题，而是我们缺少将脚本'服务化'的工程化思维。今天，我就结合一个'高可用数据采集服务'的实战案例，分享一下如何让我们的毕设项目变得更稳定、更专业。

1. 毕设后台服务的那些'坑'

在开始动手前，我们先盘点一下本科毕设中后台服务常见的痛点，这能帮助我们理解后续技术方案要解决什么问题。

进程管理混乱：很多同学用 nohup python script.py & 启动后就不管了。进程挂了不会自动重启，想停止服务时只能靠 ps aux | grep 然后 kill -9，非常原始且危险。
日志无限膨胀：直接在代码里用 print 或者简单写入文件，日志不会轮转（Rotate），很快就能把一个几 G 的磁盘分区写满，导致服务或系统崩溃。
无优雅退出机制：服务在收到终止信号（如 SIGTERM）时，可能正在写入文件或保存数据，直接退出会导致数据丢失或状态不一致。
部署依赖复杂：启动脚本里写死了绝对路径，或者依赖特定的 Python 环境（如虚拟环境路径），换台机器或换个用户就跑不起来。
缺乏监控：服务是否在运行？CPU/内存占用是否正常？采集任务成功了多少次？这些信息一概不知，出了问题只能'盲猜'。

2. 技术选型：cron, systemd 还是 supervisor？

解决上述问题，我们需要一个进程管理工具。常见的有三种：

cron：定时任务神器，但不适合作为常驻进程的管理器。它只负责到点启动，进程启动后的生老病死它不管，也无法方便地查看状态或控制启停。
supervisor：一个用 Python 写的进程管理工具，功能强大，配置灵活，有 Web 界面。对于复杂的多进程管理非常合适。
systemd：现代 Linux 发行版（CentOS 7+, Ubuntu 16.04+）默认的初始化系统和服务管理器。它深度集成于系统，提供强大的服务生命周期管理、依赖关系、日志收集（journald）和资源控制功能。

对于毕设项目，我强烈推荐 systemd。 原因如下：

零依赖：系统自带，无需额外安装配置。
功能完备：自动重启、日志管理、资源限制、服务状态查询等需求都能满足。
标准化：学习 systemd 的 .service 文件编写，是一项有价值的、贴近生产环境的技能。

3. 核心实战：构建 systemd 管理的 Python 守护进程

接下来，我们一步步构建一个数据采集服务。假设它的功能是每隔一段时间从一个模拟的 API 采集数据并存入文件。

3.1 项目结构

首先，建立一个清晰的项目目录。

/data_collector/
├── app/
│   ├── __init__.py
│   ├── collector.py # 核心采集逻辑
│   └── logger.py # 日志配置模块
├── config/
│   └── settings.py # 配置文件
├── requirements.txt # Python 依赖
├── main.py # 程序主入口
└── README.md

3.2 Python 主程序实现 (main.py)

一个健壮的守护进程需要处理信号、配置日志并具备异常恢复能力。

import requests import json import logging from datetime import datetime class DataCollector: def __init__(self, shutdown_event): self.shutdown_event = shutdown_event self.config = { 'api_url': 'http://httpbin.org/delay/2', # 模拟一个延迟 API 'data_file': '/var/data/collected_data.jsonl', 'collection_interval': 30 # 采集间隔，秒 } self.session = requests.Session() # 简单的请求重试配置 self.session.mount('http://', requests.adapters.HTTPAdapter(max_retries=2)) logging.info(f"采集器初始化完成，目标 API: {self.config['api_url']}") def run_one_cycle(self): """执行一个完整的采集、处理、存储周期""" if self.shutdown_event.is_set(): return logging.debug("开始新的采集周期") try: # 1. 采集 response = self.session.get(self.config['api_url'], timeout=5) response.raise_for_status() data = response.json() # 2. 处理（这里可以添加数据清洗、转换逻辑） processed_data = { 'timestamp': datetime.utcnow().isoformat(), 'origin': data.get('origin'), 'url': data.get('url') } # 3. 存储（追加写入文件） with open(self.config['data_file'], 'a') as f: f.write(json.dumps(processed_data) + '\n') logging.info(f"数据采集并存储成功。来源 IP: {processed_data.get('origin')}") except requests.exceptions.RequestException as e: logging.warning(f"网络请求失败：{e}") except (json.JSONDecodeError, IOError) as e: logging.error(f"数据处理或存储失败：{e}", exc_info=True) except Exception as e: logging.error(f"采集周期内发生未知错误：{e}", exc_info=True) raise # 将未知异常抛给主循环处理 def cleanup(self): """服务关闭前的清理工作""" logging.info("正在清理采集器资源...") self.session.close() logging.debug("HTTP 会话已关闭。")

Python + Linux 构建高可用数据采集服务

1. 毕设后台服务的那些'坑'

2. 技术选型：cron, systemd 还是 supervisor？

3. 核心实战：构建 systemd 管理的 Python 守护进程

3.1 项目结构

3.2 Python 主程序实现 (main.py)

更多推荐文章

相关免费在线工具

3.3 采集器核心逻辑 (app/collector.py)

3.4 日志配置模块 (app/logger.py)

4. systemd 服务单元文件

5. 生产环境避坑指南

6. 进阶思考：让服务更'可观测'

更多推荐文章

相关免费在线工具

Python + Linux 构建高可用数据采集服务

1. 毕设后台服务的那些'坑'

2. 技术选型：cron, systemd 还是 supervisor？

3. 核心实战：构建 systemd 管理的 Python 守护进程

3.1 项目结构

3.2 Python 主程序实现 (main.py)

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.3 采集器核心逻辑 (app/collector.py)

3.4 日志配置模块 (app/logger.py)

4. systemd 服务单元文件

5. 生产环境避坑指南

6. 进阶思考：让服务更'可观测'

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具