THULAC 中文词法分析库详解与实战

THULAC（THU Lexical Analyzer for Chinese）是清华大学开发的一款高效中文词法分析工具，集成了分词和词性标注两大核心功能。它在保证高准确率的同时兼顾处理速度，非常适合大规模中文文本处理场景。

安装与配置

使用 pip 安装

这是最便捷的方式，直接通过 pip 即可安装：

pip install thulac

安装完成后，在 Python 脚本中导入 thulac 模块即可使用。

源码安装

如果需要更底层的控制或特定版本，可以从 GitHub 克隆仓库并手动配置模型文件：

git clone https://github.com/thunlp/THULAC-Python.git

下载模型文件后放入 thulac/models 目录下，确保依赖环境就绪即可测试。

使用方法

THULAC 提供了灵活的操作模式，支持分词、词性标注及自定义配置。

基础分词与词性标注

默认模式下，工具会同时返回分词结果和词性标签：

import thulac

thu1 = thulac.thulac()
text = thu1.cut("我爱北京天安门", text=True)
print(text)
# 输出：我_r 爱_v 北京_ns 天安门_ns

仅分词模式

如果不需要词性信息，可以设置 seg_only=True，这样能进一步提升处理速度：

thu2 = thulac.thulac(seg_only=True)
text = thu2.cut("我爱北京天安门", text=True)
print(text)
# 输出：我 爱 北京 天安门

自定义词典

针对特定领域（如医疗、金融），可以通过加载用户词典来提升专有名词的分词精度：

thu3 = thulac.thulac(user_dict="custom_dict.txt")

常用参数说明

初始化时可根据需求调整以下参数：

user_dict：指定用户词典路径，提升特定词汇识别率。
seg_only：设为 True 时跳过词性标注，仅执行分词。
T2S：默认为 False，开启后可将繁体字自动转换为简体。
model_path：允许自定义模型文件存放位置。
filt：是否过滤掉'的'、'可以'等冗余高频词。

批量处理与命令行

支持对文本文件进行批量分词，并将结果写入指定文件：

thu1.cut_f("input.txt", "output.txt")

数据集	分词工具	时间 (s)	准确率	召回率
msr_test	LTP	3.21	0.867	0.896
pku_test	THULAC	0.51	0.944	0.908
pku_test	jieba	0.23	0.850	0.784

THULAC 中文词法分析库详解与实战

安装与配置

使用 pip 安装

源码安装

使用方法

基础分词与词性标注

仅分词模式

自定义词典

常用参数说明

批量处理与命令行

更多推荐文章

相关免费在线工具

性能表现

典型应用场景

参考资料

更多推荐文章

相关免费在线工具

THULAC 中文词法分析库详解与实战

安装与配置

使用 pip 安装

源码安装

使用方法

基础分词与词性标注

仅分词模式

自定义词典

常用参数说明

批量处理与命令行

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

性能表现

典型应用场景

参考资料

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具