Python 文件解析: Excel / Word / PDF 的解析、处理、预览与下载

Python 文件解析: Excel / Word / PDF 的解析、处理、预览与下载

1. 总览:同一个入口,不同解析器

当用户上传文件时,技术链路通常是:

  1. 接收文件并保存原件。
  2. 按扩展名选择对应的 Python 解析函数。
  3. 生成可预览数据。
  4. 前端展示原件与解析结果。
  5. 用户编辑后保存。
  6. 提供原件下载与编辑结果下载。

xlsx

docx

pdf

用户上传文件

Upload API

保存原件

按扩展名路由

Excel 处理器

Word 处理器

PDF 处理器

预览数据

预览数据

预览数据

前端预览与编辑

保存编辑结果

下载原件 / 下载编辑结果


2. 插件与依赖清单

先统一约定:本文里“插件”指第三方依赖包(Python 包 / 前端 npm 包)。

2.1 Python 端插件(后端)

插件版本(示例)用途是否必须
fastapi0.111.0提供上传、预览、保存、下载 API必须
uvicorn0.29.0启动 FastAPI 服务必须
python-multipart0.0.9支持 multipart/form-data 文件上传必须
openpyxl3.1.2解析/回写 Excel(xlsx)Excel 必须
pandas2.2.2Excel/表格辅助清洗(可选但常用)推荐
python-docx1.1.0解析/生成 Word(docx)Word 必须
pymupdf (fitz)1.24.9PDF 文本、表格、分页信息提取PDF 必须

对应 import 写法(便于直接复制代码):

  1. from fastapi import FastAPI, UploadFile, File
  2. from openpyxl import load_workbook
  3. from docx import Document
  4. import fitz(来自 pymupdf

2.2 前端插件(预览与编辑)

插件版本(示例)用途是否必须
xlsx^0.18.5浏览器端 Excel 预览(按 sheet 渲染)Excel 预览必须
mammoth^1.11.0浏览器端 Word 转 HTML 预览Word 预览必须
react-data-grid7.0.0-beta.59表格编辑组件(Excel/Word 表格/PDF 表格修订)需要编辑时必须

2.3 可选插件(PDF OCR 兜底)

插件用途是否必须
pytesseract + PillowPDF/图片 OCR 兜底可选
paddleocr中文 OCR 兜底(效果通常更好)可选

2.4 可选插件(兼容旧格式)

插件/工具用途是否必须
xlrd仅当你要直接读取 .xls 时使用可选
libreoffice (soffice).doc 转成 .docx,再交给 python-docx 解析可选

2.5 安装命令示例

# Backend pip install fastapi uvicorn python-multipart openpyxl pandas python-docx pymupdf # Frontendnpminstall xlsx mammoth react-data-grid # Optional OCR fallback pip install pytesseract pillow # or pip install paddleocr # Optional legacy-format support pip install xlrd 

3. 通用基础:上传、存储、路由

3.1 上传接口示例

from pathlib import Path from fastapi import APIRouter, UploadFile, File router = APIRouter()@router.post("/api/files/upload")asyncdefupload(files:list[UploadFile]= File(...)): items =[]for f in files: suffix = Path(f.filename).suffix.lower() raw_path = save_raw_file(f)# 保存原件if suffix ==".xlsx": file_id = process_excel(raw_path) file_type ="excel"elif suffix ==".docx": file_id = process_word(raw_path) file_type ="word"elif suffix ==".pdf": file_id = process_pdf(raw_path) file_type ="pdf"else: items.append({"filename": f.filename,"error":"unsupported file type"})continue items.append({"file_id": file_id,"type": file_type,"filename": f.filename})return{"items": items}
说明:openpyxl 主流场景是 .xlsxpython-docx 主流场景是 .docx
如果必须支持 .xls / .doc,建议先做“格式转换”再进入本文解析流水线。

3.2 原件下载接口(通用)

from fastapi.responses import FileResponse @router.get("/api/files/{file_id}/download/raw")defdownload_raw(file_id:str): path = locate_raw_file(file_id)return FileResponse(path, filename=path.name)

4. Excel:解析、处理、预览、编辑保存、下载

本章用到的插件:openpyxlpandas(可选)、xlsxreact-data-grid

Excel 的特点是天然二维网格,所以处理策略是“保留 sheet + 保留行列”。

4.1 解析(Python)

from openpyxl import load_workbook defparse_excel(path:str)->dict: wb = load_workbook(path, data_only=True) sheets:dict[str,list[list[str]]]={}for sheet_name in wb.sheetnames: ws = wb[sheet_name] rows:list[list[str]]=[]for row in ws.iter_rows(values_only=True): rows.append([""if c isNoneelsestr(c)for c in row]) sheets[sheet_name]= rows return{"sheet_names": wb.sheetnames,"sheets": sheets,}

4.2 处理(可选)

常见的通用处理:

  1. 去掉尾部空行。
  2. 统一行长度(短行补空字符串)。
  3. 把非字符串安全转成字符串,避免前端渲染异常。
defnormalize_excel_rows(rows:list[list[str]])->list[list[str]]:ifnot rows:return[[""]] width =max(len(r)for r in rows) normalized =[]for r in rows: row =[""if c isNoneelsestr(c)for c in r]iflen(row)< width: row +=[""]*(width -len(row)) normalized.append(row[:width])return normalized 

4.3 前端预览

前端展示方式:

  1. Sheet 名作为 tab。
  2. 当前 sheet 用 table 或 DataGrid 渲染。
  3. 支持切换 sheet。

4.4 编辑保存

PUT /api/excel/{file_id}/edit 
{"sheet_name":"Sheet1","rows":[["A1","B1"],["A2","B2"]]}

后端可把编辑结果保存成:

  1. excel_edits.json(便于二次编辑)。
  2. edited.xlsx(便于下载)。

4.5 下载

  1. 原件:GET /api/excel/{file_id}/download/raw
  2. 编辑版:GET /api/excel/{file_id}/download/edited
@router.get("/api/excel/{file_id}/download/edited")defdownload_excel_edited(file_id:str): edited_path = build_edited_excel(file_id)# 根据保存的 rows 重建 xlsxreturn FileResponse(edited_path, filename=edited_path.name)

存储后端前端用户存储后端前端用户上传 ExcelPOST /upload保存 raw.xlsxparse_excelsheet_names + sheets编辑单元格PUT /excel/{file_id}/edit保存 excel_edits.json / edited.xlsx下载编辑版GET /excel/{file_id}/download/editededited.xlsx


5. Word:解析、处理、预览、编辑保存、下载

本章用到的插件:python-docxmammothreact-data-grid

Word 的天然结构是“段落 + 表格”,不建议简单压平为纯二维表。

5.1 解析(Python)

from docx import Document defparse_word(path:str)->dict: doc = Document(path) blocks:list[dict]=[]# 段落块for p in doc.paragraphs: text = p.text.strip()if text: blocks.append({"type":"paragraph","text": text})# 表格块for table_index, table inenumerate(doc.tables): rows =[]for row in table.rows: rows.append([cell.text.strip()for cell in row.cells]) blocks.append({"type":"table","table_index": table_index,"rows": rows})return{"blocks": blocks}

5.2 处理(可选)

  1. 清理连续空段落。
  2. 表格行列补齐。
  3. 对超长文本做安全截断(仅显示时,不改原文)。

5.3 前端预览

Word 常见做法是双视图:

  1. 原件预览:mammoth 转 HTML,阅读体验更接近原文档。
  2. 编辑视图:
    1. 段落块用文本编辑器。
    2. 表格块用 DataGrid。

5.4 编辑保存

PUT /api/word/{file_id}/edit 
{"blocks":[{"type":"paragraph","text":"Updated paragraph"},{"type":"table","table_index":0,"rows":[["Header1","Header2"],["V1","V2"]]}]}

后端可以:

  1. 保存 word_edits.json
  2. python-docx 生成 edited.docx

5.5 下载

  1. 原件:GET /api/word/{file_id}/download/raw
  2. 编辑版:GET /api/word/{file_id}/download/edited
@router.get("/api/word/{file_id}/download/edited")defdownload_word_edited(file_id:str): edited_docx = build_edited_word_docx(file_id)return FileResponse(edited_docx, filename=edited_docx.name)

6. PDF:解析、处理、预览、编辑保存、下载

本章用到的插件:pymupdf(可选 OCR:pytesseract/paddleocr)、react-data-grid

PDF 的关键是“按页处理”,因为页面是它的天然单位。

6.1 解析(Python)

import fitz defparse_pdf(path:str)->dict: pages =[]with fitz.open(path)as doc:for i inrange(doc.page_count): page = doc.load_page(i) text = page.get_text("text")or"" tables =[] finder = page.find_tables()if finder and finder.tables:for t in finder.tables: tables.append([[str(c or"").strip()for c in row]for row in t.extract()]) pages.append({"page_no": i +1,"text": text,"tables": tables,"width":float(page.rect.width),"height":float(page.rect.height),})return{"page_count":len(pages),"pages": pages}

6.2 处理(可选)

  1. find_tables() 抽不到表时,回退到 page.get_text("words") 做词块聚合。
  2. 对文本进行页级摘要(便于快速预览)。
  3. 对识别结果增加 warnings 字段(纯技术提示)。

6.3 前端预览

建议双层:

  1. 原件:iframe/objectURL 直接预览 PDF。
  2. 解析结果:按页展示 text + tables

6.4 编辑保存

PUT /api/pdf/{file_id}/edit 
{"page_no":1,"table_index":0,"rows":[["Col1","Col2"],["A","B"]],"notes":"manual correction"}

后端可保存:

  1. pdf_edits.json
  2. edited.pdf(可选实现:加批注页、嵌入修订信息)

6.5 下载

  1. 原件:GET /api/pdf/{file_id}/download/raw
  2. 编辑版 PDF:GET /api/pdf/{file_id}/download/edited
  3. 编辑记录 JSON(可选):GET /api/pdf/{file_id}/download/edits-json

存储后端前端用户存储后端前端用户上传 PDFPOST /upload保存 raw.pdfparse_pdf(分页提取)pages/meta修订表格PUT /pdf/{file_id}/edit保存 pdf_edits.json / edited.pdf下载编辑版GET /pdf/{file_id}/download/editededited.pdf


7. API 清单(示例)

类型预览接口保存接口下载接口
ExcelGET /api/excel/{file_id}/previewPUT /api/excel/{file_id}/editdownload/raw / download/edited
WordGET /api/word/{file_id}/previewPUT /api/word/{file_id}/editdownload/raw / download/edited
PDFGET /api/pdf/{file_id}/previewPUT /api/pdf/{file_id}/editdownload/raw / download/edited
说明:这三组接口可以由同一个服务实现。本文拆开写,仅用于按文件格式独立说明技术实现细节。

8. 工程落地建议(纯技术)

  1. 原件一定要保存,不要只存解析结果。
  2. 编辑结果建议落 JSON,再按需导出编辑版文件。
  3. 下载接口统一加 Content-Disposition: attachment
  4. 所有预览数据都做空值与类型兜底,前端会省很多判断。
  5. 文件名建议带时间戳,例如:
    1. report_edited_20260224_1530.xlsx
    2. doc_edited_20260224_1530.docx
    3. scan_edited_20260224_1530.pdf

9. 效果

excel预览效果

excel预览效果

word预览效果

word预览效果

pdf 预览效果

pdf 预览效果

Read more

Flutter 组件 simplify 的适配 鸿蒙Harmony 实战 - 驾驭路径精简算法、实现鸿蒙端高性能地理足迹渲染与矢量图形优化方案

Flutter 组件 simplify 的适配 鸿蒙Harmony 实战 - 驾驭路径精简算法、实现鸿蒙端高性能地理足迹渲染与矢量图形优化方案

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.ZEEKLOG.net Flutter 组件 simplify 的适配 鸿蒙Harmony 实战 - 驾驭路径精简算法、实现鸿蒙端高性能地理足迹渲染与矢量图形优化方案 前言 在鸿蒙(OpenHarmony)生态的运动健康轨迹展示、高精度室内导航以及大规模矢量地图看板开发中,“路径性能”是决定用户滑动流畅度的核心红线。面对用户运动 1 小时产生的包含数万个(X, Y)坐标点的原始 GPS 序列。如果直接将其交给鸿蒙端的渲染层进行绘制,不仅会引发由于顶点(Vertices)过多导致的 GPU 负载饱和。更会由于频繁的坐标点内存申请(Memory Allocation),产生严重的 UI 掉帧与功耗飙升。 我们需要一种“去重存精、视觉无损”的几何精简艺术。 simplify 是一套专注于极致性能的 Douglas-Peucker 及其增强算法实现。它能瞬间将冗余的、

By Ne0inhk
【优选算法】双指针算法:专题一

【优选算法】双指针算法:专题一

目录 引言: 【283.移动零】 1、题目描述 2、实现核心及思路 解题思路: 思路可视化: 代码实现: 代码测试: 【1089.复写零】 1、题目描述 2、实现核心及思路 解题思路: 思路可视化: 代码实现: 代码测试: 【202. 快乐数】 1、题目描述 2、实现核心及思路 解题思路: 代码实现: 【11. 盛水最多容器】 1、题目描述 2、实现核心及思路 解题思路: 思路可视化: 代码实现: 引言: 常见的双指针有两种形式,一种是对撞指针,一种是快慢指针。 对撞指针:一般用于顺序结构中,也称左右指针。 • 对撞指针从两端向中间移动。一个指针从最左端开始,另一个从最右端开始,然后逐渐往中间逼近。

By Ne0inhk
算法入门:专题攻克一---双指针4(三数之和,四数之和)强推好题,极其锻炼算法思维

算法入门:专题攻克一---双指针4(三数之和,四数之和)强推好题,极其锻炼算法思维

🎬 胖咕噜的稞达鸭:个人主页 🔥 个人专栏: 《数据结构》《C++初阶高阶》《算法入门》 ⛺️技术的杠杆,撬动整个世界! 三数之和 三数之和 1. 题目分析: 取三元组中的三个数,num[i], num[j], num[k], i!=j, i != k; j != k ,也就是说一次取到的三个数不可以是相同位置的,三个数的位置各不相同。同时也满足三个数的相加等于0。最后还得是不同的组合(去重操作)。 这里给一个数组,便于演示: 【 -4 -4 -1 0 0 0 1 1 4 4 5 6】 2. 算法原理: 解法一:先排序+暴力枚举+

By Ne0inhk
《算法闯关指南:动态规划算法--斐波拉契数列模型》--01.第N个泰波拉契数,02.三步问题

《算法闯关指南:动态规划算法--斐波拉契数列模型》--01.第N个泰波拉契数,02.三步问题

🔥草莓熊Lotso:个人主页 ❄️个人专栏: 《C++知识分享》《Linux 入门到实践:零基础也能懂》 ✨生活是默默的坚持,毅力是永久的享受! 🎬 博主简介: 文章目录 * 前言: * 01.第N个泰波拉契数 * 解法(动态规划): * 算法流程: * C++算法代码: * 算法总结&&笔记展示: * 02.三步问题 * 解法(动态规划): * 算法思路: * C++算法代码: * 算法总结&&笔记展示: * 结尾: 前言: 聚焦算法题实战,系统讲解三大核心板块:优选算法:剖析动态规划、二分法等高效策略,学会寻找“最优解”。 递归与回溯:掌握问题分解与状态回退,攻克组合、排列等难题。 贪心算法:理解“

By Ne0inhk