• Stars
    star
    116
  • Rank 303,894 (Top 6 %)
  • Language
    Jupyter Notebook
  • Created about 6 years ago
  • Updated about 6 years ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

基于ltp的简单评论观点抽取模块

LtpExtraction

基于ltp的简单评论观点抽取模块

无监督信息抽取较多都是使用哈工大的ltp作为底层框架。那么基于ltp其实有了非常多的小伙伴进行了尝试,笔者私自将其归纳为:

  • 事件抽取(三元组)
  • 观点抽取

“语言云” 以哈工大社会计算与信息检索研究中心研发的 “语言技术平台(LTP)” 为基础,为用户提供高效精准的中文自然语言处理云服务。 pyltp 是 LTP 的 Python 封装,提供了分词,词性标注,命名实体识别,依存句法分析,语义角色标注的功能。

需要先载入他们训练好的模型,下载地址

初始化pyltp的时候一定要留意内存问题,初始化任何子模块(Postagger() /NamedEntityRecognizer()等等)都是需要占用内存,如果不及时释放会爆内存。 之前比较好的尝试是由该小伙伴已经做的小项目:liuhuanyong/EventTriplesExtraction,是做三元组抽取的一个实验,该同学另外一个liuhuanyong/CausalityEventExtraction因果事件抽取的项目也很不错,辛苦写了一大堆规则,之后会对因果推理进行简单描述。

笔者也自己写了一个抽取模块,不过只是简单评论观点抽取模块。 留心的小伙伴可以基于此继续做很多拓展:搭配用语挖掘,同义词挖掘,新词挖掘 笔者的博客连接:ltp︱基于ltp的无监督信息抽取模块(事件抽取/评论观点抽取)


1 信息抽取 - 搭配抽取

1.1 逻辑整理

整个逻辑主要根据依存句法分析,笔者主要利用了以下的关系类型:

那么笔者理解 + 整理后得到四类抽取类型:

  • 搭配用语查找(SVB,ATT,ADV)
  • 并列词查找(COO)
  • 核心观点抽取(HED+主谓宾逻辑)
  • 实体名词搭配(词性n )

其中笔者还加入了停词,可以对结果进行一些筛选。

1.2 code粗解读

这边细节会在github上公开,提一下code主要分的内容:ltp启动模块 / 依存句法解读 / 结果筛选

  • ltp模块,一定要注意释放模型,不要反复 Postagger() / Segmentor() / NamedEntityRecognizer() /SementicRoleLabeller(),会持续Load进内存,然后boom...
  • 依存句法模块,笔者主要是整理结果,将其整理为一个dataframe,便于后续结构化理解与抽取内容,可见:
  • 结果筛选模块,根据上述的几个关系进行拼接。

案例句:艇仔粥料很足,香葱自己添加,很贴心。

在这里插入图片描述

表的解读,其中:

  • word列,就是这句话主要分词结果
  • relation列/pos列,代表该词的词性与关系
  • match_word列/match_word_n列,根据关系匹配到的词条
  • tuples_words列,就是两者贴一起

同时若觉得需要去掉一些无效词搭配,也可以额外添加无效词进来,还是比较弹性的。

1.3 结果展示

句子一:

在这里插入图片描述

句子二:

在这里插入图片描述

句子三:

在这里插入图片描述


2 LTP的语义角色标注(Semantic Role Labeling,SRL)

更新于20181113

该模块是利用LTP中的SRL模块进行分析

print(SRLparsing(labeller,words,postags,ToAfter = ['TMP','A1','DIS']))

----- 语义角色 -----

([['ADV', ('最后', '打')], ['ADV', (['平均', '下来'], '便宜')], ['ADV', ('才', '便宜')], ['A0', ('40', '便宜')]], (True, ['40', '便宜', []]))

与句法模块相似,利用一些组合规则来进行信息抽取,主要以A0为主,A0 - 动作的施事,相当于动作的主体

此时可以理解为核心主语,然后去找主语的修饰,TMP(时间),A1(动作的影响),DIS(标记语),PRP(目的)

具体可见SRLparsing.py

当然,实际使用的时候,发现会经常报错:

RuntimeError: CPU memory allocation failed

因为用LTP跑这个耗时 + 耗内存,顶多只是试玩一下,不太利用用于大批量操作。

More Repositories

1

ChineseWiki

维基百科中文语料整理
Python
284
star
2

DouBanRecommend

基于豆瓣图书的推荐、知识图谱与知识引擎简单构建neo4j
Python
259
star
3

Face_Swapping

简单换脸、人脸对齐、关键点定位与画图
Jupyter Notebook
167
star
4

keras-yolov3-KF-objectTracking

以kears-yolov3做detector,以Kalman-Filter算法做tracker,进行多人物目标追踪
Python
163
star
5

py-kenlm-model

python | 高效使用统计语言模型kenlm:新词发现、分词、智能纠错等
Python
158
star
6

U-Net-Demo

U-Net图像分割练习题两则
Jupyter Notebook
121
star
7

LangueOne

练习题︱基于今日头条开源数据的文本挖掘
Python
84
star
8

py-yanwenzi

网络表情NLP,颜文字识别,颜文字表情实体识别、属性检测、新颜发现
Python
35
star
9

Attention-RNN-Multi-Touch-Attribution

Attention-RNN来做多触点归因模型
Python
27
star
10

python-Apriori

Python,两款Apriori算法实践与比较,基于今日头条数据的练习题
Python
24
star
11

gensim-fast2vec

gensim-fast2vec改造、灵活使用大规模外部词向量(具备OOV查询能力)
Python
21
star
12

streamlit_demo

streamlit一些样例以及相关的博文收集
Python
18
star
13

WA-ModelEnsemble

Weight Averaging Model Ensemble
Jupyter Notebook
17
star
14

KwaiSurvival-Test-Demo

2021/7/9测试KwaiSurvival的实验代码
Python
11
star
15

pyALS

练习题,python 协同过滤ALS模型实现:商品推荐 + 用户人群放大
Python
9
star
16

causal_inference_demo

Causal Inference Demo
Python
8
star
17

SparkDesk_Document_QA

SparkDesk Document QA
Python
8
star
18

qdrQA

基于Query-Document Relevance ranking 的知识问答
Python
8
star
19

forSSD_txt2xml

用caffe实现SSD中,从txt文件格式到xml转变
Python
7
star
20

chAI_API

国内AI常见API调用情况
Python
6
star
21

ml_interpretability

机器学习
Python
6
star
22

Keras_for_Image

如何用Keras做图像处理。
Python
2
star
23

tensorflow_nlp

tensorflow_nlp:word segmentation、NER、POS、Parse .e.t.
Python
2
star
24

ColorfulR

wordcloud Extended application for R!
R
2
star
25

mBandit

bandit的尝试
Python
1
star
26

TopicClassifier

MOne︱基于词包的无监督多主题得分
Python
1
star
27

forDataset_CaltechPedestrian

Caltech Pedestrian Dataset 数据集变现代码,matlab+python
MATLAB
1
star