NLP 自然语言处理 TextRank 算法详解：文本摘要与关键词提取 | 极客日志

PythonAI算法

NLP 自然语言处理 TextRank 算法详解：文本摘要与关键词提取

TextRank 算法的原理及其在 NLP 中的应用。TextRank 借鉴 PageRank 思想，通过共现关系评估词语重要性。文章详细讲解了关键词、关键短语及关键句的抽取方法，并提供了基于 textrank4zh 和 jieba 库的 Python 代码实现示例，帮助读者掌握自动文本摘要与关键词提取技术。

修罗发布于 2026/3/28更新于 2026/7/2342 浏览

TextRank 算法的来源

在介绍 TextRank 算法之前，我们先来简单回顾一下著名的 PageRank 算法。
PageRank 算法：通过计算网页链接的数量和质量来评估网页的重要性，算法发明人即谷歌的两位联合创始人之一的拉里·佩奇 (Larry Page)。最初被应用在搜索引擎优化操作中。
联想思维：PageRank 算法其实是借鉴了学术界评价学术论文重要性的通用方法 -"影响因子", 可以直观的理解为"该论文被引用的次数".
这样就可以很自然的得到 PageRank 的核心思想:
- 如果一个网页被很多其他网页连接到的话，说明这个网页比较重要，也就是 PageRank 值会比较高.
- 如果一个 PageRank 值很高的网页链接到另一个网页，那么被链接到的那个网页的 PageRank 值也会相应的被提高.

TextRank 算法的概念

对比于衡量网页重要性的 PageRank 算法，TextRank 算法用于衡量哪些单词是关键词，类比之下的算法思想也就很好理解了:
- 如果一个单词出现在很多单词的后面，就是它和很多单词有关联，那么说明这个单词比较重要.
- 如果一个 TextRank 值很高的单词后面跟着另一个单词，那么后面这个单词的 TextRank 值也会相应的被提高.
如果对 TextRank 更深的理论感兴趣，可以直接查询原始论文，地址如下:
- https://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf

TextRank 算法代码实践

在本小节中，我们仅以示例代码跑通几段小程序，让同学们掌握如何具体在代码层面用 TextRank.
- 关键词抽取 (keyword extraction)
- 关键短语抽取 (keyphrase extraction)
- 关键句抽取 (sentence extraction)

3.1 关键词抽取

关键词抽取：是指从文本中确定一些能够描述文档含义的关键术语的过程.
对关键词抽取而言，用于构建顶点集的文本单元可以使句子中的一个或多个字。根据这些字之间的关系构建边.
根据任务的需要，可以使用语法过滤器 (syntactic filters) 对顶点集进行优化。语法过滤器的主要作用是将某一类或者某几类词性的字过滤出来作为顶点集.
在真实的企业场景下，应用 TextRank 一般都直接采用基于 textrank4zh 工具包来说辅助工程.

# coding=utf-8 # 导入 textrank4zh 的相关工具包
from textrank4zh import TextRank4Keyword, TextRank4Sentence
# 导入常用工具包
import pandas as pd
import numpy as np
# 关键词抽取
def keywords_extraction(text):
    # allow_speech_tags : 词性列表，用于过滤某些词性的词
    tr4w = TextRank4Keyword(allow_speech_tags=[, , , , , ])
    
    
    
    
    
    
    
    
    tr4w.analyze(text=text, window=, lower=, vertex_source=, edge_source=, pagerank_config={: , })
    
    
    keywords = tr4w.get_keywords(num=, word_min_len=)
    
     keywords

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

if __name__ == "__main__":
    text = "来源：中国科学报本报讯（记者肖洁）又有一位中国科学家喜获小行星命名殊荣！4 月 19 日下午，中国科学院国家天文台在京举行'周又元星'颁授仪式，" \
           "我国天文学家、中国科学院院士周又元的弟子与后辈在欢声笑语中济济一堂。国家天文台党委书记、" \
           "副台长赵刚在致辞一开始更是送上白居易的诗句：'令公桃李满天下，何须堂前更种花。'"
           "据介绍，这颗小行星由国家天文台施密特 CCD 小行星项目组于 1997 年 9 月 26 日发现于兴隆观测站，"
           "获得国际永久编号第 120730 号。2018 年 9 月 25 日，经国家天文台申报，"
           "国际天文学联合会小天体联合会小天体命名委员会批准，国际天文学联合会《小行星通报》通知国际社会，"
           "正式将该小行星命名为'周又元星'。"
    # 关键词抽取
    keywords = keywords_extraction(text)
    print(keywords)

[{'word': '小行星', 'weight': 0.05808441467341854}, {'word': '天文台', 'weight': 0.05721653775742513}, {'word': '命名', 'weight': 0.0485177005159723}, {'word': '中国', 'weight': 0.045716478124251815}, {'word': '中国科学院', 'weight': 0.037818937836996636}, {'word': '国家', 'weight': 0.03438059254484016}]

from textrank4zh import TextRank4Keyword, TextRank4Sentence
# 关键短语抽取
def keyphrases_extraction(text):
    tr4w = TextRank4Keyword()
    tr4w.analyze(text=text, window=2, lower=True, vertex_source='all_filters', edge_source='no_stop_words', pagerank_config={'alpha': 0.85, })
    # keywords_num: 抽取的关键词数量
    # min_occur_num: 关键短语在文中的最少出现次数
    keyphrases = tr4w.get_keyphrases(keywords_num=6, min_occur_num=1)
    # 返回关键短语
    return keyphrases

if __name__ == "__main__":
    text = "来源：中国科学报本报讯（记者肖洁）又有一位中国科学家喜获小行星命名殊荣！4 月 19 日下午，中国科学院国家天文台在京举行'周又元星'颁授仪式，" \
           "我国天文学家、中国科学院院士周又元的弟子与后辈在欢声笑语中济济一堂。国家天文台党委书记、" \
           "副台长赵刚在致辞一开始更是送上白居易的诗句：'令公桃李满天下，何须堂前更种花。'"
           "据介绍，这颗小行星由国家天文台施密特 CCD 小行星项目组于 1997 年 9 月 26 日发现于兴隆观测站，"
           "获得国际永久编号第 120730 号。2018 年 9 月 25 日，经国家天文台申报，"
           "国际天文学联合会小天体联合会小天体命名委员会批准，国际天文学联合会《小行星通报》通知国际社会，"
           "正式将该小行星命名为'周又元星'。"
    # 关键短语抽取
    keyphrases = keyphrases_extraction(text)
    print(keyphrases)

['小行星命名']

from textrank4zh import TextRank4Keyword, TextRank4Sentence
# 关键句抽取
def keysentences_extraction(text):
    tr4s = TextRank4Sentence()
    # text: 文本内容，字符串
    # lower: 是否将英文文本转换为小写，默认值为 False
    # source: 选择使用 words_no_filter, words_no_stop_words, words_all_filters 中的哪一个来生成句子之间的相似度
    # 默认值为'all_filters', 可选值为'no_filter', 'no_stop_words', 'all_filters'
    tr4s.analyze(text, lower=True, source='all_filters')
    # 获取最重要的 num 个长度大于等于 sentence_min_len 的句子用来生成摘要
    keysentences = tr4s.get_key_sentences(num=3, sentence_min_len=6)
    # 返回关键句子
    return keysentences

if __name__ == "__main__":
    text = "来源：中国科学报本报讯（记者肖洁）又有一位中国科学家喜获小行星命名殊荣！4 月 19 日下午，中国科学院国家天文台在京举行'周又元星'颁授仪式，" \
           "我国天文学家、中国科学院院士周又元的弟子与后辈在欢声笑语中济济一堂。国家天文台党委书记、" \
           "副台长赵刚在致辞一开始更是送上白居易的诗句：'令公桃李满天下，何须堂前更种花。'"
           "据介绍，这颗小行星由国家天文台施密特 CCD 小行星项目组于 1997 年 9 月 26 日发现于兴隆观测站，"
           "获得国际永久编号第 120730 号。2018 年 9 月 25 日，经国家天文台申报，"
           "国际天文学联合会小天体联合会小天体命名委员会批准，国际天文学联合会《小行星通报》通知国际社会，"
           "正式将该小行星命名为'周又元星'。"
    # 关键句抽取
    keysentences = keysentences_extraction(text)
    print(keysentences)

[{'index': 4, 'sentence': '2018 年 9 月 25 日，经国家天文台申报，国际天文学联合会小天体联合会小天体命名委员会批准，国际天文学联合会《小行星通报》通知国际社会，正式将该小行星命名为'周又元星'', 'weight': 0.2281040325096452}, {'index': 3, 'sentence': ''据介绍，这颗小行星由国家天文台施密特 CCD 小行星项目组于 1997 年 9 月 26 日发现于兴隆观测站，获得国际永久编号第 120730 号', 'weight': 0.2106246105971721}, {'index': 1, 'sentence': '4 月 19 日下午，中国科学院国家天文台在京举行'周又元星'颁授仪式，我国天文学家、中国科学院院士周又元的弟子与后辈在欢声笑语中济济一堂', 'weight': 0.2020923401661083}]

import jieba.analyse
def jieba_keywords_textrank(text):
    keywords = jieba.analyse.textrank(text, topK=6)
    return keywords

if __name__ == "__main__":
    text = "来源：中国科学报本报讯（记者肖洁）又有一位中国科学家喜获小行星命名殊荣！4 月 19 日下午，中国科学院国家天文台在京举行'周又元星'颁授仪式，" \
           "我国天文学家、中国科学院院士周又元的弟子与后辈在欢声笑语中济济一堂。国家天文台党委书记、" \
           "副台长赵刚在致辞一开始更是送上白居易的诗句：'令公桃李满天下，何须堂前更种花。'"
           "据介绍，这颗小行星由国家天文台施密特 CCD 小行星项目组于 1997 年 9 月 26 日发现于兴隆观测站，"
           "获得国际永久编号第 120730 号。2018 年 9 月 25 日，经国家天文台申报，"
           "国际天文学联合会小天体联合会小天体命名委员会批准，国际天文学联合会《小行星通报》通知国际社会，"
           "正式将该小行星命名为'周又元星'。"
    # 基于 jieba 的 textrank 算法实现
    keywords = jieba_keywords_textrank(text)
    print(keywords)

['小行星', '命名', '国际', '中国', '国家', '天文学家']

NLP 自然语言处理 TextRank 算法详解：文本摘要与关键词提取

TextRank 算法的来源

TextRank 算法的概念

TextRank 算法代码实践

3.1 关键词抽取

更多推荐文章

相关免费在线工具

3.2 关键短语抽取

3.3 关键句抽取

3.4 基于 jieba 的 TextRank 算法

小节

更多推荐文章

相关免费在线工具

NLP 自然语言处理 TextRank 算法详解：文本摘要与关键词提取

TextRank 算法的来源

TextRank 算法的概念

TextRank 算法代码实践

3.1 关键词抽取

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.2 关键短语抽取

3.3 关键句抽取

3.4 基于 jieba 的 TextRank 算法

小节

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具