Python 中文分词库 jieba 快速入门指南 | 极客日志

PythonAI算法

Python 中文分词库 jieba 快速入门指南

综述由AI生成Python 中文分词库 jieba 的核心功能与使用方法。涵盖安装步骤、三种分词模式（精确、全模式、搜索引擎）、自定义词典添加、关键词提取（TF-IDF）、词性标注及并行分词。通过代码示例展示了如何切分文本、生成词云及 API 速查，适用于自然语言处理场景下的文本分析任务。

AiEngineer发布于 2026/3/30更新于 2026/5/2525 浏览

在自然语言处理（NLP）中，中文文本处理的第一步通常是分词。由于中文没有像英文那样的空格分隔单词，因此需要智能工具来识别词语边界。

此时，jieba 是最常用且强大的中文分词库之一。

本文介绍 jieba 的安装与核心用法。

1. jieba 简介

jieba 是一个优秀的中文分词库，名字来源于'结巴'二字。它基于前缀词典实现高效的词图扫描算法，结合 HMM（隐马尔可夫模型）来识别新词。

简单来说，它能帮你：

把句子切分成有意义的词语；
自动识别新词；
支持关键词提取；
支持自定义词典。

2. 安装 jieba

使用 pip 一键安装即可：

pip install jieba

安装完成后，在 Python 中导入：

import jieba

3. jieba 的三种分词模式

jieba 提供了三种常用分词模式，适用于不同场景。

精确模式（默认）

尽量切分出最精确的词语，适合文本分析。

import jieba
text = "我来到北京清华大学"
words = jieba.cut(text, cut_all=False)
print("精确模式：", "/".join(words))

输出：

精确模式： 我/来到/北京/清华大学

这种模式是最常用的，也是默认模式。

全模式

找出句子中所有可能的词（会有冗余），速度最快但不精确。

words = jieba.cut("我来到北京清华大学", cut_all=True)
print("全模式：", "/".join(words))

输出：

全模式： 我/来到/北京/清华/清华大学/华大/大学

全模式适合搜索引擎分词（即'匹配尽可能多的词'）。

搜索引擎模式

在精确模式的基础上，再次对长词进行细分，适合用于搜索引擎索引。

words = jieba.cut_for_search("小明硕士毕业于中国科学院计算所")
print("搜索引擎模式：", "/".join(words))

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

搜索引擎模式： 小明/硕士/毕业/于/中国/中国科学院/科学/学院/中国科学院计算所/计算/计算所

text = "李小龙是中国功夫之王"
print("/".join(jieba.cut(text)))

李/小龙/是/中国/功夫/之/王

jieba.add_word("李小龙")
print("/".join(jieba.cut(text)))

李小龙/是/中国/功夫/之/王

李小龙 10 nr 中国功夫 5 nz

jieba.load_userdict("user_dict.txt")

import jieba.analyse
text = "人工智能是计算机科学的一个分支，它企图理解智能的实质，并生产出一种新的能以人类智能方式行动的机器。"
keywords = jieba.analyse.extract_tags(text, topK=5, withWeight=True)
print("关键词提取结果：")
for word, weight in keywords:
    print(f"{word} ({weight:.3f})")

关键词提取结果： 智能 (1.234) 计算机 (0.923) 科学 (0.612) 机器 (0.512) 理解 (0.438)

import jieba.posseg as pseg
words = pseg.cut("我爱自然语言处理")
for word, flag in words:
    print(f"{word} ({flag})")

我 (r) 爱 (v) 自然语言处理 (n)

词性	含义
n	名词
v	动词
a	形容词
r	代词
ns	地名
nr	人名

jieba.enable_parallel(4) # 使用 4 个线程
text = "非常长的一段文本..."
words = jieba.cut(text)
jeiba.disable_parallel()

import jieba
from wordcloud import WordCloud
import matplotlib.pyplot as plt

text = "我爱自然语言处理，Python 让中文分词变得如此简单。"
# 分词
words = jieba.cut(text)
text_cut = " ".join(words)
# 生成词云
wc = WordCloud(font_path="msyh.ttc", width=600, height=400).generate(text_cut)
plt.imshow(wc, interpolation="bilinear")
plt.axis("off")
plt.show()

方法	作用
`jieba.cut(text, cut_all=False)`	精确模式分词
`jieba.cut_for_search(text)`	搜索引擎模式分词
`jieba.add_word(word)`	动态添加自定义词
`jieba.load_userdict(file)`	加载自定义词典
`jieba.analyse.extract_tags(text, topK)`	提取关键词（TF-IDF）
`jieba.posseg.cut(text)`	词性标注
`jieba.enable_parallel(num)`	启用并行分词

功能	说明
分词模式	精确 / 全模式 / 搜索引擎
自定义词典	支持动态和文件加载
关键词提取	内置 TF-IDF 算法
词性标注	支持词性识别
并行分词	提升大文本处理速度

Python 中文分词库 jieba 快速入门指南

1. jieba 简介

2. 安装 jieba

3. jieba 的三种分词模式

精确模式（默认）

全模式

搜索引擎模式

更多推荐文章

相关免费在线工具

4. 添加自定义词典

方法一：动态添加词语

方法二：加载外部词典文件

5. 关键词提取

6. 词性标注（Part-of-Speech Tagging）

7. 并行分词（多线程）

8. 完整示例：从句子到词云

9. jieba 常用 API 速查表

10. 总结

更多推荐文章

相关免费在线工具

Python 中文分词库 jieba 快速入门指南

1. jieba 简介

2. 安装 jieba

3. jieba 的三种分词模式

精确模式（默认）

全模式

搜索引擎模式

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4. 添加自定义词典

方法一：动态添加词语

方法二：加载外部词典文件

5. 关键词提取

6. 词性标注（Part-of-Speech Tagging）

7. 并行分词（多线程）

8. 完整示例：从句子到词云

9. jieba 常用 API 速查表

10. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具