Python 文件组织实战：从路径抽象到安全归档

能力	核心模块
路径与目录结构	`os` / `pathlib`
高层文件操作	`shutil`
压缩与归档	`zipfile`

Python 文件组织实战：从路径抽象到安全归档 | 极客日志

logs/
├── app_2025-01-01.log
├── app_2025-01-02.log
└── error_2025-01-02.log

dataset_raw/
├── img_001.jpg
├── img_002.jpg
├── label_001.json
└── label_002.json

build/
├── bin/
├── conf/
└── static/

from pathlib import Path
import shutil
import zipfile

source_dir = Path("build")
output_dir = Path("release")
zip_path = Path("release.zip")

# 1. 创建输出目录
output_dir.mkdir(exist_ok=True)

# 2. 拷贝构建产物
for item in source_dir.iterdir():
    if item.is_dir():
        shutil.copytree(item, output_dir / item.name, dirs_exist_ok=True)
    else:
        shutil.copy2(item, output_dir / item.name)

# 3. 压缩归档
with zipfile.ZipFile(zip_path, "w", zipfile.ZIP_DEFLATED) as zf:
    for file in output_dir.rglob("*"):
        zf.write(file, file.relative_to(output_dir))

log_path = "logs/" + date + "/app.log"

with open("config/app.yaml") as f:
    ...

with open("/opt/app/config/app.yaml") as f:
    ...

from pathlib import Path
BASE_DIR = Path(__file__).resolve().parent
config_path = BASE_DIR / "config" / "app.yaml"

from pathlib import Path
p = Path("data/input.txt")
p.exists() # 是否存在
p.is_file() # 是否为文件
p.is_dir() # 是否为目录

import os
os.path.exists("data")
os.path.join("data", "input.txt")
os.listdir("data")

from pathlib import Path
data_dir = Path("data")
file_path = data_dir / "input.txt"

语义	`os.path`	`pathlib`
拼接路径	`os.path.join(a, b)`	`Path(a) / b`
判断存在	`os.path.exists(p)`	`Path(p).exists()`
目录名	`os.path.dirname(p)`	`Path(p).parent`
文件名	`os.path.basename(p)`	`Path(p).name`
扩展名	手动解析	`Path(p).suffix`

p = Path("logs/app.log")
p.parent # logs
p.name # app.log
p.stem # app
p.suffix # .log

p = Path("./logs/../logs/app.log")
p.resolve()

data_dir = Path("data")
for item in data_dir.iterdir():
    print(item, item.is_file(), item.is_dir())

from pathlib import Path
file_path = Path("output/result.txt")
# 确保父目录存在
file_path.parent.mkdir(parents=True, exist_ok=True)
# 写入文件（覆盖）
file_path.write_text("hello world", encoding="utf-8")

import shutil
from pathlib import Path
src = Path("data/input.txt")
dst = Path("backup/input.txt")
dst.parent.mkdir(parents=True, exist_ok=True)
shutil.copy2(src, dst)

shutil.move("data/input.txt", "archive/input.txt")

from pathlib import Path
Path("a/b/c").mkdir(parents=True, exist_ok=True)

Path("tmp").rmdir()

import shutil
shutil.rmtree("tmp")

tmp_dir = Path("tmp").resolve()
project_root = Path.cwd().resolve()
if project_root in tmp_dir.parents:
    shutil.rmtree(tmp_dir)

from pathlib import Path
import shutil
src_dir = Path("raw")
dst_dir = Path("processed")
dst_dir.mkdir(exist_ok=True)
for file in src_dir.iterdir():
    if file.is_file() and file.suffix == ".log":
        shutil.move(file, dst_dir / file.name)

def unique_path(path: Path) -> Path:
    if not path.exists():
        return path
    stem = path.stem
    suffix = path.suffix
    parent = path.parent
    index = 1
    while True:
        new_path = parent / f"{stem}_{index}{suffix}"
        if not new_path.exists():
            return new_path
        index += 1

target = unique_path(Path("archive/app.log"))
shutil.move("app.log", target)

from pathlib import Path
for item in Path("data").iterdir():
    print(item)

for file in Path("data").rglob("*"):
    print(file)

import os
for root, dirs, files in os.walk("data"):
    print(root)
    print(dirs)
    print(files)

os.walk("data", topdown=True)

for root, dirs, files in os.walk("data"):
    dirs[:] = [d for d in dirs if not d.startswith(".")]

from pathlib import Path
import os
for root, _, files in os.walk("logs"):
    for name in files:
        path = Path(root) / name
        if path.suffix == ".log":
            print("process:", path)

for root, dirs, files in os.walk("data"):
    for f in files:
        os.remove(Path(root) / f)

from pathlib import Path
import os
to_delete = []
for root, _, files in os.walk("data"):
    for name in files:
        path = Path(root) / name
        if path.suffix == ".tmp":
            to_delete.append(path)
for path in to_delete:
    path.unlink()

from pathlib import Path
base = Path("data").resolve()
for path in base.rglob("*"):
    if len(path.relative_to(base).parts) > 3:
        continue
    print(path)

from pathlib import Path
import os

def walk_files(root: Path, predicate):
    for current, _, files in os.walk(root):
        for name in files:
            path = Path(current) / name
            if predicate(path):
                yield path

logs = walk_files(
    Path("logs"),
    lambda p: p.suffix == ".log" and p.stat().st_size > 0
)
for log in logs:
    print(log)

输入： 一个或多个目录 / 文件 + 已整理好的结构 + 确定的根目录
输出： 一个归档文件 + 稳定的内部路径 + 可预测的内容

release/
├── bin/
│   └── app
├── conf/
│   └── app.yaml
└── static/
    └── logo.png

/Users/xxx/project/release/bin/app

from pathlib import Path
base_dir = Path("release").resolve()
file = base_dir / "bin/app"
relative_path = file.relative_to(base_dir)

if not base_dir.exists():
    raise RuntimeError("archive source not found")
if not any(base_dir.iterdir()):
    raise RuntimeError("archive source is empty")

def should_include(path: Path) -> bool:
    return path.is_file() and not path.name.endswith(".tmp")

import zipfile
from pathlib import Path

base_dir = Path("release")
zip_path = Path("release.zip")

with zipfile.ZipFile(zip_path, "w", zipfile.ZIP_DEFLATED) as zf:
    for file in base_dir.rglob("*"):
        if file.is_file():
            zf.write(file, file.relative_to(base_dir))

模式	语义
`"w"`	新建或覆盖
`"a"`	追加
`"r"`	只读

def should_include(path: Path) -> bool:
    if not path.is_file():
        return False
    if path.suffix in {".log", ".tmp"}:
        return False
    return True

with zipfile.ZipFile(zip_path, "w", zipfile.ZIP_DEFLATED) as zf:
    for file in base_dir.rglob("*"):
        if should_include(file):
            zf.write(file, file.relative_to(base_dir))

with zipfile.ZipFile("release.zip") as zf:
    for name in zf.namelist():
        print(name)

with zipfile.ZipFile("release.zip") as zf:
    with zf.open("conf/app.yaml") as f:
        content = f.read().decode("utf-8")

with zipfile.ZipFile("release.zip") as zf:
    zf.extractall("output")

../../etc/passwd

from pathlib import Path
import zipfile

def safe_extract(zip_path: Path, target_dir: Path):
    target_dir = target_dir.resolve()
    with zipfile.ZipFile(zip_path) as zf:
        for member in zf.namelist():
            dest = (target_dir / member).resolve()
            if not str(dest).startswith(str(target_dir)):
                raise RuntimeError(f"unsafe path: {member}")
        zf.extractall(target_dir)

zipfile.ZipFile(
    zip_path,
    "w",
    compression=zipfile.ZIP_DEFLATED,
    compresslevel=6
)

input/
├── logs/
│   ├── app.log
│   └── error.log
├── data/
│   ├── raw.csv
│   └── temp.tmp
└── config.yaml

release/
├── conf/
│   └── config.yaml
├── data/
│   └── raw.csv
└── logs/
    ├── app.log
    └── error.log
release.zip

from pathlib import Path
import shutil

INPUT_DIR = Path("input").resolve()
RELEASE_DIR = Path("release").resolve()
ZIP_PATH = Path("release.zip").resolve()

if RELEASE_DIR.exists():
    shutil.rmtree(RELEASE_DIR)
RELEASE_DIR.mkdir()

def classify(path: Path) -> Path | None:
    if path.suffix == ".log":
        return Path("logs") / path.name
    if path.suffix == ".csv":
        return Path("data") / path.name
    if path.name == "config.yaml":
        return Path("conf") / path.name
    return None

import os
import shutil

for root, _, files in os.walk(INPUT_DIR):
    for name in files:
        src = Path(root) / name
        rel = classify(src)
        if rel is None:
            continue
        dst = RELEASE_DIR / rel
        dst.parent.mkdir(parents=True, exist_ok=True)
        shutil.copy2(src, dst)

expected = [
    RELEASE_DIR / "conf/config.yaml",
    RELEASE_DIR / "data/raw.csv",
    RELEASE_DIR / "logs/app.log",
    RELEASE_DIR / "logs/error.log",
]
for path in expected:
    if not path.exists():
        raise RuntimeError(f"missing file: {path}")

import zipfile

with zipfile.ZipFile(ZIP_PATH, "w", zipfile.ZIP_DEFLATED) as zf:
    for file in RELEASE_DIR.rglob("*"):
        if file.is_file():
            zf.write(file, file.relative_to(RELEASE_DIR))

def build_release(input_dir: Path, output_dir: Path, zip_path: Path):
    # 初始化
    if output_dir.exists():
        shutil.rmtree(output_dir)
    output_dir.mkdir()

    # 组织文件
    for root, _, files in os.walk(input_dir):
        for name in files:
            src = Path(root) / name
            rel = classify(src)
            if rel is None:
                continue
            dst = output_dir / rel
            dst.parent.mkdir(parents=True, exist_ok=True)
            shutil.copy2(src, dst)

    # 归档
    with zipfile.ZipFile(zip_path, "w", zipfile.ZIP_DEFLATED) as zf:
        for file in output_dir.rglob("*"):
            if file.is_file():
                zf.write(file, file.relative_to(output_dir))

path = "data/" + filename

from pathlib import Path
path = Path("data") / filename

BASE_DIR = Path(__file__).resolve().parent
DATA_DIR = BASE_DIR / "data"

shutil.copy2(src, dst) # dst 已存在

def safe_copy(src: Path, dst: Path):
    if dst.exists():
        raise RuntimeError(f"file exists: {dst}")
    dst.parent.mkdir(parents=True, exist_ok=True)
    shutil.copy2(src, dst)

for root, _, files in os.walk("data"):
    for f in files:
        os.remove(Path(root) / f)

to_delete = []
for root, _, files in os.walk("data"):
    for f in files:
        to_delete.append(Path(root) / f)
for path in to_delete:
    path.unlink()

def safe_rmtree(path: Path, allowed_root: Path):
    path = path.resolve()
    allowed_root = allowed_root.resolve()
    if allowed_root not in path.parents:
        raise RuntimeError(f"refuse to delete: {path}")
    shutil.rmtree(path)

zf.write(file)

zf.write(file, file.relative_to(base_dir))

zf.extractall("output")

try:
    shutil.copy2(src, dst)
except OSError as e:
    print(f"copy failed: {src} -> {dst}: {e}")

def assert_tree(root: Path):
    for path in root.rglob("*"):
        if path.is_file() and path.stat().st_size == 0:
            raise RuntimeError(f"empty file: {path}")

from pathlib import Path

class Workspace:
    def __init__(self, root: Path):
        self.root = root.resolve()

    def input(self) -> Path:
        return self.root / "input"

    def release(self) -> Path:
        return self.root / "release"

def iter_files(root: Path):
    for path in root.rglob("*"):
        if path.is_file():
            yield path

def rule(path: Path) -> Path | None:
    if path.suffix == ".log":
        return Path("logs") / path.name
    return None

staging = Path("staging")
release = Path("release")

# 所有文件就绪之后，才进行归档
build_release(...)
build_zip(...)

def guarded_delete(path: Path, scope: Path):
    if scope not in path.resolve().parents:
        raise RuntimeError("delete scope violation")
    path.unlink()

def assert_release(root: Path):
    required = [
        root / "conf/config.yaml",
        root / "data/raw.csv",
    ]
    for p in required:
        if not p.exists():
            raise RuntimeError(f"missing: {p}")

def run_pipeline(input_dir: Path, output_dir: Path):
    prepare(output_dir)
    files = collect(input_dir)
    mapped = map_rules(files)
    materialize(mapped, output_dir)
    validate(output_dir)
    archive(output_dir)

Python 文件组织实战：从路径抽象到安全归档

一、本章目标与适用场景

（一）为什么要系统性地学习文件组织

（二）要解决的核心问题

（三）典型应用场景

场景一：日志与产物归档

场景二：数据集或资源文件整理

场景三：构建产物自动打包

（四）一个最小但完整的'文件组织'示例

二、文件系统基础抽象（快速回顾）

（一）为什么'路径抽象'决定了代码质量

（二）绝对路径与相对路径的工程语义

1. 相对路径：依赖运行上下文

2. 绝对路径：确定但不灵活

3. 工程建议

（三）文件路径与目录路径的语义区分

（四）os 与 pathlib 的角色分工

1. os：系统级接口

2. pathlib：路径即对象

（五）常用路径操作的等价对照

（六）路径解析与规范化

（七）遍历入口：目录对象是'集合'

（八）路径是结构，不是字符串

三、文件与目录的基本操作模型

（一）文件操作的核心语义

（二）文件创建：先明确'写入语义'

（三）文件复制：内容 vs 元数据

（四）文件移动：重命名还是跨目录迁移

（五）目录创建：单层 vs 多层

（六）目录删除：空目录与非空目录

1. 删除空目录

2. 删除非空目录（高风险操作）

（七）文件与目录的批量操作模型

（八）文件覆盖与冲突处理策略

（九）操作不是 API，而是模型

四、遍历目录树：文件批处理的核心能力

（一）为什么'遍历'是文件组织的发动机

（二）两种遍历视角：浅层 vs 递归

1. 浅层遍历：只看当前目录

2. 递归遍历：遍历整个目录树

（三）os.walk：工程级目录遍历接口

（四）遍历顺序与可控性

（五）在遍历中执行规则化操作

（六）遍历中的'危险操作'防护

1. 不要在遍历同一目录时修改结构

2. 推荐模式：先收集，再操作

（七）遍历性能与范围控制

（八）目录遍历的通用抽象模式

（九）遍历是数据流，不是循环

五、文件归档与压缩的工程需求

（一）为什么文件组织最终一定会走向'归档'

（二）归档与压缩：两个经常被混用的概念

1. 归档（Archive）

2. 压缩（Compress）

3. 工程中的现实情况

（三）为什么 ZIP 是工程中最通用的选择

（四）归档阶段的输入与输出模型

（五）一个最小但正确的归档前结构示例

（六）归档路径稳定性的工程意义

（七）归档前的安全与质量检查

1. 确认目录存在且非空

2. 排除不应进入归档的文件

（八）归档阶段的职责边界

（九）归档是交付边界，不是整理过程

六、zipfile 模块：ZIP 压缩与解压实战

（一）zipfile 的工程定位

（二）ZIP 文件的基本结构认知

（三）创建 ZIP 文件：最小正确示例

（四）写入模式与覆盖语义

（五）控制归档内容：过滤是必需的

（六）ZIP 内容检查与读取

1. 列出归档内容

2. 读取单个文件内容

（七）解压 ZIP：功能与风险并存

1. 基本解压

2. 路径穿越风险（必须理解）

3. 安全解压示例（工程必备）

（八）压缩等级与性能取舍

（九）ZIP 作为'最终交付物'的设计原则

七、组合实战：自动化文件组织流程设计

（四）`os` 与 `pathlib` 的角色分工

1. `os`：系统级接口

2. `pathlib`：路径即对象

（三）`os.walk`：工程级目录遍历接口

六、`zipfile` 模块：ZIP 压缩与解压实战

（一）`zipfile` 的工程定位

（五）`shutil.rmtree` 的误用（最高风险）