前言
本文整理了近千个热门 Python 库,涵盖 24 个主要方向,供开发者参考。
1、数据处理
文本处理
- chardet:字符编码检测器,该库可以检测文本、网页、xml 等多种文件格式的编码
- difflib:文本差异比较
- ftfy:使程序更加完美的支持 Unicode 编码
- fuzzywuzzy:可以进行字符串的模糊匹配
- Levenshtein:计算各种距离以及字符串相似度
- pangu.py:调整中日韩文字当中的字母、数字间距
- pypinyin:汉字拼音转换工具
- shortuuid:用来生成 UUID
- simplejson:JSON 编码、解码器
- unidecode:Unicode 格式操作
- uniout:打印字符,不进行转义
- xpinyin:把汉字转换为拼音
- yfiglet-figlet:pyfiglet -figlet 的 Python 实现
- flashtext: 用于文本查找替换
- esmre:加速正则表达式
- awesome slugify:用于处理 Unicode
- python-slugify:把 unicode 转化为 ASCII
- unicode-slugify:可以生成 unicode slugs,依赖与 Django
- phonenumbers:用于解析、格式化、储存和验证电话号码
- PLY:lex 和 yacc 解析工具
- Pygments:语法高亮工具
- pyparsing:可以生成通用解析器
- python-nameparser:把人名分解为几个独立的部分
- python-user-agents:浏览器 user agent 解析器
- sqlparse:SQL 解析器
特殊文本处理
- tablib:用来处理表格数据
- Marmir:把 Python 数据结构转换为电子表单
- openpyxl:用来读写 Excel 文件的库
- pyexcel:一个提供统一 API,用来操作 Excel 文件的库
- python-docx:操作 Word 文件
- relatorio:模板化 OpenDocument 文件
- unoconv:转换 LibreOffice/OpenOffice 文件格式
- XlsxWriter:用于创建 Excel.xlsx 文件
- xlwings:一个在 Excel 中调用 Python 的库
- xlwt/xlrd:读写 Excel 文件的数据
- PDFMiner:一个用于从 PDF 文档中抽取信息的库
- PyPDF2:一个可以进行多种操作 PDF 页面的库
- ReportLab:可以创建富文本 PDF 文档
- Mistune:Markdown 解析器
- Python-Markdown:有一个 Markdown 解析器
- Python-Markdown2:纯 Python 实现的 Markdown 解析器,比 Python-Markdown 更快,更准确,可扩展
- PyYAML:YAML 解析器
- csvkit:操作 CSV 的工具
- unp:一个用来解包归档文件的命令行工具
HTML/XML 解析
- BeautifulSoup:解析 HTML 或 XML 格式数据
- bleach:基于白名单的 HTML 清理和文本链接库
- cssutils:CSS 库
- html5lib:HTML 文档和片段解析及序列化库
- lxml:一个用来处理 HTML 和 XML 的库
- MarkupSafe:XML/HTML/XHTML 标记安全字符串
- pyquery:一个解析 HTML 的库,类似 jQuery
- requests-html:人性化的 HTML 解析库
- untangle:将 XML 文档转换为 Python 对象
- xhtml2pdf:HTML/CSS 转 PDF 工具


