THUCKE: 中文关键词抽取工具包
目录
项目介绍
THUCKE(THU Chinese Keyphrase Extraction)由清华大学自然语言处理与社会人文计算实验室研制推出的中文关键词抽取工具包。采用WAM(Word Alignment Model)模型,引入翻译的方法,将关键词和正文作为翻译对,使用IBM-Model1进行训练,获得“关键词-正文词”翻译概率表,综合该翻译概率表和TFIDF方法,进行关键词抽取。 训练语料采用网易新闻最近的新闻近40000条,并且我们将不断更新语料库,训练新的模型,在模型下载界面可以选择不同版本模型。
编译安装:
在当前目录执行make,编译完成会在当前目录生成可执行文件thucke
使用方法
下载地址):
1.下载模型文件(将模型下载并解压到./res/,解压后目录结构应为:
- res
- thucke_models
- thulac_models
2.参数介绍:
参数 | 解析 |
---|---|
-i | 需要提取关键词的文本文件路径 |
-n | 需要提取关键词的最大个数 |
-m | 模型文件路径 |
3.运行示例:
3.1 准备抽取文本
使用演示文本test1.txt或test2.txt,或者使用自己的文本替换该文件内容
3.2.运行工具
执行./thucke -i ./test1.txt -n 5 -m ./res
3.3 输出结果为json格式
{
"result": [
{
"keyword": "财政",
"score": 1000
},
{
"keyword": "企业",
"score": 875
},
{
"keyword": "政策",
"score": 625
},
{
"keyword": "减税",
"score": 541
},
{
"keyword": "支出",
"score": 374
}
],
"timeuse": 0.10199,
"info": "success",
"status": 0
}
3.4 结果内容介绍:
key | value |
---|---|
result | 返回结果:keyword(关键词),score(对应评分,结果按评分排序,最高分1000)) |
timeuse | 运行时间/s,仅为关键词抽取时间,不包括模型加载时间 |
status | 返回状态码 |
info | 状态码注释 |
与其它关键词抽取工具结果对比
我们与其它常见的关键词抽取工具(jieba)进行对比,采用了两篇新闻作为抽取文本,抽取的结果对比如下:
1.测试文本test1.txt
THUCKE | 评分(最高1000) | jieba-TFIDF | 评分(最高1) | jieba-TextRank | 评分(最高1) |
---|---|---|---|---|---|
耳机 | 1000 | 耳机 | 0.2455 | 耳机 | 1.0 |
辐射 | 521 | 蓝牙 | 0.2163 | 蓝牙 | 0.7364 |
人体 | 391 | 苹果 | 0.1688 | 苹果 | 0.7210 |
表示 | 376 | AirPods | 0.1488 | 表示 | 0.5163 |
使用 | 318 | iPhone7 | 0.1339 | 使用 | 0.4901 |
iPhone7 | 318 | 辐射 | 0.1067 | 没有 | 0.4808 |
手机 | 304 | Plus | 0.1042 | 辐射 | 0.4750 |
AirPods | 289 | 无线耳机 | 0.1042 | 传送 | 0.3215 |
电波 | 217 | 健康 | 0.0743 | 人体 | 0.3186 |
研究 | 202 | 传送 | 0.0722 | 问题 | 0.2980 |
2.测试文本test2.txt
THUCKE | 评分(最高1000) | jieba-TFIDF | 评分(最高1) | jieba-TextRank | 评分(最高1) |
---|---|---|---|---|---|
财政 | 1000 | 减税 | 0.2445 | 经济 | 1.0 |
企业 | 875 | 财政政策 | 0.1313 | 减税 | 0.8912 |
政策 | 625 | 企业 | 0.1033 | 企业 | 0.8254 |
减税 | 541 | 税收收入 | 0.0968 | 增长 | 0.6250 |
支出 | 374 | 经济 | 0.0875 | 增加 | 0.5322 |
增长 | 291 | 数据 | 0.0780 | 扩大 | 0.4892 |
税收 | 250 | 降费 | 0.0731 | 税收 | 0.4434 |
政府 | 250 | 负担 | 0.07198 | 数据 | 0.4217 |
增加 | 250 | 税收 | 0.0698 | 财政 | 0.4134 |
扩大 | 208 | 税率 | 0.0693 | 财政政策 | 0.4092 |
THUCKE工程介绍
- Makefile //makefile配置文件
- README.md //文档
- head //头文件
- thulac //thulac分词和词性标注相关头文件
- thucke //thucke关键词抽取相关头文件
- articleSpliter.h //输入文本分割相关
- keyword.h //关键词相关
- trie.h //trie树相关
- res //资源文件,主要是模型文件放置目录
- src //源代码存放目录
- thucke.cpp //主程序入口,如需进行任何形式的改造,从此文件开始
- keywordLoad.cpp //模型加载
- articleSpliter.cpp //输入文本切分预处理
- thulac_segment.cpp //分词和词性标注
- keywordExtract.cpp //关键词抽取核心算法实现
- trie.cpp //trie搜索树实现
- test1.txt //测试文本1
- test2.txt //测试文本2
THUCKE模型介绍
- THUCKE采用WAM方法,将新闻标题和新闻内容作为翻译对,生成“标题词语”-“内容词语”翻译概率矩阵,综合该词语翻译概率矩阵和tfidf,对给定文本进行关键词抽取,算法详细情况请查看“相关论文”部分;
- 训练语料采用从网易新闻爬取的最近一段时间的新闻数据大概40000条,因此该关键词抽取模型对于新闻类文本效果较好;
- 下载的模型除了thucke关键词抽取模型之外,还包含thulac分词词性标注模型,thulac同为thunlp推出的中文词法分析工具包,具有分词和词性标注功能;
- THUCKE将一直不断更新训练数据,生成最新的模型,同时保留旧模型,可以根据需要进行下载。
开源协议
-
THUCKE面向国内外大学、研究所、企业以及个人用于研究目的免费开放源代码。
-
如有机构或个人拟将THUCKE用于商业目的,请发邮件至[email protected]洽谈技术许可协议。
-
欢迎对该工具提出任何宝贵意见和建议,请发邮件至[email protected]提出意见和建议。
-
如果您在THUCKE基础上发表论文或取得科研成果,请您在发表论文和申报成果时声明“使用了清华大学THUCKE”,并按如下格式引用:
- Zhiyuan Liu, Xinxiong Chen, Maosong Sun. A Simple Word Trigger Method for Social Tag Suggestion. The Conference on Empirical Methods in Natural Language Processing (EMNLP 2011).
相关论文
- Zhiyuan Liu, Xinxiong Chen, Maosong Sun. A Simple Word Trigger Method for Social Tag Suggestion. The Conference on Empirical Methods in Natural Language Processing (EMNLP 2011).[pdf]
- Zhiyuan Liu, Xinxiong Chen, Yabin Zheng, Maosong Sun. Automatic Keyphrase Extraction by Bridging Vocabulary Gap. The 15th Conference on Computational Natural Language Learning (CoNLL 2011).[pdf]
作者
- Zhipeng Guo(郭志芃,本科生), Yunshan Ma(马云山,本科生), Zhiyuan Liu(刘知远,助理教授), Maosong Sun(孙茂松,教授)