Python 中文分词库 Jieba 核心用法详解：模式、词典与关键词提取

Python 中文分词库 Jieba 核心用法详解：模式、词典与关键词提取 | 极客日志

pip install jieba

pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install paddlepaddle-tiny==1.6.1

import jieba

test_content = '迅雷不及掩耳盗铃儿响叮当仁不让世界充满爱之势'
cut_res = jieba.cut(test_content, cut_all=False)
print('[精确模式]：', list(cut_res))

['迅雷不及', '掩耳盗铃', '儿响', '叮', '当仁不让', '世界', '充满', '爱之势']

cut_res = jieba.cut(test_content, cut_all=True)
print('[全模式]：', list(cut_res))

['迅雷', '迅雷不及', '迅雷不及掩耳', '不及', '掩耳', '掩耳盗铃', '儿', '响叮当', '叮当', '当仁不让', '不让', '世界', '充满', '爱', '之', '势']

cut_res = jieba.cut_for_search(test_content)
print('[搜索引擎模式]：', list(cut_res))

['迅雷', '不及', '迅雷不及', '掩耳', '掩耳盗铃', '儿响', '叮', '不让', '当仁不让', '世界', '充满', '爱之势']

jieba.add_word('铃儿响叮当')
lcut_res = jieba.lcut(test_content, cut_all=True, HMM=False)
print('[添加自定义词语]：', lcut_res)

迅雷不及掩耳之势 3 a
掩耳盗铃 3 a
铃儿响叮当 3 a
当仁不让 3 a
让世界充满爱 3 n

jieba.load_userdict('mydict.txt')
lcut_res = jieba.lcut(test_content, cut_all=True, HMM=False)
print('[使用自定义词典]：', lcut_res)

jieba.del_word('不及')
jieba.del_word('不让')

jieba.suggest_freq('让世界充满爱', True)

from jieba import analyse

key_word = analyse.extract_tags(test_content, topK=3, withWeight=True)
for word, weight in key_word:
    print(f'{word}: {weight}')

key_word = analyse.textrank(test_content, topK=3, allowPOS=['n', 'vn', 'v'])
print('[TextRank 关键词]：', list(key_word))

from jieba import posseg

words = posseg.lcut(test_content)
for w in words:
    print(f'{w.word} / {w.flag}')

res = jieba.tokenize(test_content)
for r in res:
    if len(r[0]) > 3:
        print(f'word:{r[0]}\t start:{r[1]}\t end:{r[2]}')

# 启动时执行一次
jieba.initialize()

Python 中文分词库 Jieba 核心用法详解：模式、词典与关键词提取

Python 中文分词库 Jieba 核心用法详解

概述

安装与环境准备

基础安装

PaddlePaddle 深度学习模式

分词模式详解

1. 精确模式

2. 全模式

3. 搜索引擎模式

自定义词典管理

1. 添加单个词语

2. 加载外部词典文件

3. 删除与调整词频

删除词语

调整词频

关键词提取

1. TF-IDF 算法

2. TextRank 算法

词性标注

分词位置定位

性能优化与最佳实践

1. 初始化缓存

2. 内存控制

3. 多进程支持

总结

更多推荐文章

相关免费在线工具

Python 中文分词库 Jieba 核心用法详解：模式、词典与关键词提取

Python 中文分词库 Jieba 核心用法详解

概述

安装与环境准备

基础安装

PaddlePaddle 深度学习模式

分词模式详解

1. 精确模式

2. 全模式

3. 搜索引擎模式

自定义词典管理

1. 添加单个词语

2. 加载外部词典文件

3. 删除与调整词频

删除词语

调整词频

关键词提取

1. TF-IDF 算法

2. TextRank 算法

词性标注

分词位置定位

性能优化与最佳实践

1. 初始化缓存

2. 内存控制

3. 多进程支持

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具