THULAC(THU Lexical Analyzer for Chinese)是清华大学开发的一款高效中文词法分析工具,集成了分词和词性标注两大核心功能。它在保证高准确率的同时兼顾处理速度,非常适合大规模中文文本处理场景。
安装与配置
使用 pip 安装
这是最便捷的方式,直接通过 pip 即可安装:
pip install thulac
安装完成后,在 Python 脚本中导入 thulac 模块即可使用。
源码安装
如果需要更底层的控制或特定版本,可以从 GitHub 克隆仓库并手动配置模型文件:
git clone https://github.com/thunlp/THULAC-Python.git
下载模型文件后放入 thulac/models 目录下,确保依赖环境就绪即可测试。
使用方法
THULAC 提供了灵活的操作模式,支持分词、词性标注及自定义配置。
基础分词与词性标注
默认模式下,工具会同时返回分词结果和词性标签:
import thulac
thu1 = thulac.thulac()
text = thu1.cut("我爱北京天安门", text=True)
print(text)
# 输出:我_r 爱_v 北京_ns 天安门_ns
仅分词模式
如果不需要词性信息,可以设置 seg_only=True,这样能进一步提升处理速度:
thu2 = thulac.thulac(seg_only=True)
text = thu2.cut("我爱北京天安门", text=True)
print(text)
# 输出:我 爱 北京 天安门
自定义词典
针对特定领域(如医疗、金融),可以通过加载用户词典来提升专有名词的分词精度:
thu3 = thulac.thulac(user_dict="custom_dict.txt")
常用参数说明
初始化时可根据需求调整以下参数:
user_dict:指定用户词典路径,提升特定词汇识别率。seg_only:设为True时跳过词性标注,仅执行分词。T2S:默认为False,开启后可将繁体字自动转换为简体。model_path:允许自定义模型文件存放位置。filt:是否过滤掉'的'、'可以'等冗余高频词。
批量处理与命令行
支持对文本文件进行批量分词,并将结果写入指定文件:
thu1.cut_f("input.txt", "output.txt")


