• Stars
    star
    435
  • Rank 100,085 (Top 2 %)
  • Language
    Python
  • Created almost 6 years ago
  • Updated almost 6 years ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

An collection of Chinese nlp corpus including basic Chinese syntatic wordset, semantic wordset, historic corpus and evaluate corpus. 中文自然语言处理的语料集合,包括语义词、领域共时、历时语料库、评测语料库等。

ChineseNLPcorpus

An collection of Chinese nlp corpus including basic Chinese syntatic and semantic wordset, semantic wordset, historic corpus and evaluate corpus. 中文自然语言处理的语料集合,包括语义词、领域共时、历时语料库、评测语料库等。本项目简单谈谈自己对语言资源的感想以及目前自己进行语言资源构建的现状。

介绍

  语言资源,本身是一个宽泛的概念,即语言+资源,语言指的是资源的限定域,资源=资+源,是资料的来源或者汇总,加在一起,也就形成了这样一种界定:任何语言单位形成的集合,都可以称为语言资源。语言资源是自然语言处理任务中的一个必不可少的组成部分,一方面语言资源是相关语言处理任务的支撑,为语言处理任务提供先验知识进行辅助,另一方面,语言处理任务也为语言资源提出了需求,并能够对语言资源的搭建、扩充起到技术性的支持作用。因此,随着自然语言处理技术的不断发展,自然语言处理需求在各个领域的不断扩张、应用,相关语言资源的构建占据了越来越为重要的地位。作者在硕士期间所在的研究机构为国家语言资源监测与研究平面媒体中心,深受导师所传授的语言资源观影响,毕业后在实际的学习、工作过程中,动手实践,形成了自己的一些浅薄的语言资源认识,现在写出来,供大家一起讨论,主要介绍一些自己对语言资源的搜索,搭建过程中的一些心得以及自己目前在语言资源建设上的一些工作。

语言资源的分类

  介绍中说到,任何语言单位的集合都可以称为语言资源,比如我有一个个人的口头禅集合,这个就可以称为一个语言资源库,在你实际生活中进行言语活动时,你其实就在使用这个语言资源库。再比如说,一个班级中的学生名单,其实也可以当作是一种语言资源,这个语言资源在进行班级学生点名、考核的时候也大有帮助。当然,此处所讨论的语言资源是从自然语言处理应用的角度上出发的。总的来说,我把它归为以下两种类型:
1、领域语料库
  领域语料库,是从语料的这个角度来讲的,这里的语料,界定成文本级别(以自然语句为基础级别形成的文本集合,即可以是句子、段落、篇章等)。领域语料库,可以根据不同的划分规则而形成不同的语料类别:
  1)根据所属领域,可以进一步细化成不同领域的语料库。包括金融领域语料、医药领域语料、教育领域语料、文学领域语料等等。
  2)根据所属目的,可以进一步细化为:评测语料(为自然语言处理技术pk而人工构造的一些评测语料,如ACE,MUC等国际评测中所出现的如semeval2014,snli等);工具语料(指供自然语言处理技术提供资源支撑的语料)
  3)根据语料加工程度的不同,可进一步分为:熟语料(指在自然语言单位上添加人工的标签标注,如经过分词、词性标注、命名实体识别、依存句法标注形成的语料),生语料(指直接收集而未经加工形成的语言资源集,如常见的微博语料,新闻语料等)
  4)根据语料语种的不同,可进一步分为:单语语料和多语语料,多语语料指的是平行语料,常见于机器翻译任务中的双语对齐语料(汉-阿平行语料库,汉-英平行语料库)等。
  5)根据语料规模的不同,可以进一步分为:小型语料库,中型语料库,大型语料库。至于小型、中型、大型的界定,可根据实际领域语料的规模而动态调整
2、领域词库
  领域词库,指以句级以下语言单位形成的语言资源库,这个层级的语言单位可以是笔画、偏旁部首、字、词、短语等。同样的,领域词库也可以进一步细分。
  1)领域特征词库。这里所说的领域特征词库,指的是与领域强相关,具有领域区别能力形成的词语集合,如体育领域中常见的“篮球”、“足球”等词,文学领域常见的“令狐冲”、“鲁迅”等词,又如敏感词库等,这些词常常可作为分类特征而存在。
  2)语法语义词库。语义词库的侧重点在与语言的语法层面和语义层面:
  a)语法词库:北大的语法信息词典,北大的实体概念词典、Hownet语义词典这三类词典,这几个语法词库,在对词的语法功能上都做了不同的工作,对词的内部结构信息进行了详细的标注,如北大的语法信息词典,以词类为划分标准讲汉语的常用词进行了划分,并对词性、搭配(前接成分和后接成分)进行了详细的标注;Hownet语义词典从义项的角度对词的义元进行了分解和注释。
  b)语义词库:这类语义词,侧重点不在词语的内部语法结构,而在词语的整体语义上。这类词库,常见的词库有哈工大发布的同义词词林扩展版,这个词库将同义词按照语义的相近程度进行了不同层次的聚类,可以作为同义词扩展提供帮助。另一个是情感分析任务中常用的情感词典,这类词典主要公开的词典包括大连理工大学信息检索实验室公开的情感本体词库、hownet、香港中文大学、台湾清华大学公开的情感词库(具体包括情感词库、否定词库、强度词库)等。另外,工业界,有boson公开的微博情感词库(词的规模比较大,但标注信息不是很精准)。还有的,则是中文的反义词库等,这个可以参考我的github项目,里面对这些词库也有一些涉及。

语言资源的问题

  语言资源的搭建,指的是语言资源的整个搭建过程。其实是要解决四个问题,一个是语言资源的收集问题;二是语言资源的融合标准化问题;三是语言资源的动态更新问题;四是语言资源的共享与联盟问题。下面就这四点展开阐述:
  1、语言资源收集的问题。语言资源搜索过程中有三步走策略,在这个步骤完成之后,会得到一系列的词库。这些词库可能初期不会特别完善,往往还需要人工使用启发式规则进行人工去噪的工作。
  2,语言资源的融合标准化问题。通过不同方式收集起来的语言资源,往往会存在一个格式不对称的问题,这有点像知识图谱中的知识融合问题。因此,为了解决这个问题,我们通常需要制定一个标准化的语言资源格式,例如,在构建情感词表的过程当中,有的情感词表没有强度标记,有的强度值范围不一样,有的情感词表的标记不一,这个时候往往需要标准化,给定一个标准化的样式,再将不同来源的情感词按照这个标记做相应的调整。我在实际的工作过程中,常常把这种问题类别成知识图谱构建过程中的schema搭建问题,信息抽取过程中的slot-definition问题。先把规范和标准搭好,再去统一标准化。
  3,语言资源的动态更新问题。知识和信息的价值,在很大程度上都在于它的一种实时性,语言资源作为一种常识性知识库,能够保证自身的一种与时俱进,将能够最大限度地发挥自身的价值。而从实践的角度上来说,语言资源的动态更新,可以靠人工去维持,去动态及时更新,也可以建立一种动态监测和更新机制,让机器自动地去更新。这类其实可以参考知识图谱更新的相关工作。
  4,语言资源的共享与联盟问题。语言资源是否共享,其实是一个与业务敏感以及开源意识想结合的一种决策,有的资源因为某种业务敏感或者开源意识不够open而无法共享,当然还有其他因素成分在,不过,语言资源最好是需要共享的,这样能够最大力度的发挥语言资源在各个领域的应用。语言资源的联盟问题,更像是对开源语言资源的一种链接与互联。这类问题是对当前的资源零散、碎片化问题的一个思考,前面也说到,目前情感分析的词表有很多个,语法和语义词库也有很多个,但每个人在构建时的出发点不同,构建者也分布在不同的高校或机构当中,这些资源虽然在个数上会有增长,但随着时间的推移,这种零散化的现象将会越来越严重。

语言资源的实践

  本项目以采集公开的人民日报与参考消息为例进行历时的新闻采集为例, 公开网站中公开了1946-2003年的人民日报语料,1957-2002年的参考消息语料, 采集这种具有长远历史信息的语料对于历史人文研究以及语言演变有重大意义,本项目放在newspaper目录下。
运行方式: scrapy crawl travel
主要函数包括:

class TravelSpider(scrapy.Spider):
    name = 'travel'
    '''资讯采集主控函数'''
    def start_requests(self):
	Data = BuildData()
	date_list = Data.create_dates()
	for date in date_list:
	    print(date)
	    date_url = 'http://www.laoziliao.net/ckxx/%s'%date
	    param = {'url': date_url, 'date': date}
	    yield scrapy.Request(url=date_url, meta=param, callback=self.get_urllist, dont_filter=True)

    '''获取页面新闻列表'''
    def get_urllist(self, response):
	selector = etree.HTML(response.text)
	date_url = response.meta['url']
	urls = [i.split('#')[0] for i in selector.xpath('//ul/li/a/@href') if date_url in i]
	for url in set(urls):
	    param = {'url':url , 'date': response.meta['date']}
	    yield scrapy.Request(url=url, meta=param, callback=self.page_parser, dont_filter=True)

    '''新闻字段内容解析'''
    def page_parser(self, response):
	selector = etree.HTML(response.text)
	articles = selector.xpath('//div[@class="article"]')
	titles = selector.xpath('//h2/text()')
	contents = []
	for article in articles:
	    content = article.xpath('string(.)')
	    contents.append(content)
	papers = zip(titles, contents)
	for i in papers:
	    item = TravelspiderItem()
	    item['url'] = response.meta['url']
	    item['date'] = response.meta['date']
	    item['title'] = i[0]
	    item['content'] = i[1] 
	    yield item
	return

语言资源构建现状

作者在学习和工作之余,根据语言资源搭建策略,构建起了语义词库、领域词库、领域语料库、评测语料库。种类约53种,具体如下:

语义知识库

类型 名称 介绍
语义词库 语法信息词典 汉语词语的语法功能分类、词语的语法属性描述
语义词库 Hownet义原词典 董振东老师研制,汉语词语义原分类
语义词库 程度副词词典 表示程度的词
语义词库 现代汉语词典 现代汉语词典, txt版本
语义词库 否定词词典 对意义进行反转的词典
语义词库 同义词词林词典 哈工大同义词词典
语义词库 反义词词典 反义词词表,1.5W对
语义词库 同义词词典 同义词词典,5.5W对
语义词库 schema概念词典 互动百科概念体系,百度百科概念体系
语义词库 停用词 自然语言处理用停用词词表

领域词库

类型 名称 介绍
领域词库 搜狗输入法领域词库 超过1W个领域的搜狗输入法词库txt版本
领域词库 职位词典 基于百万级拉钩JD网抽取形成的职位词典
领域词库 敏感词词词库 敏感词词库,包括政治、反动等词
领域词库 情感词词库 大连理工、知网、港中大、台大、boson等公开情感词典

领域语料库

类型 名称 介绍
领域语料库 人民日报标注语料 1998年人民日报分词语料库
领域语料库 20类小说文本集合 20个领域(武侠、恐怖等)小说集合,7K+小说文本
领域语料库 字幕网70W字幕文本语料 字幕网字幕文件解析,70W字幕文本语料
领域语料库 内涵段子50W等语料 基于内涵段子采集,50W短文本
领域语料库 歌词14W语料 基于公开歌词网采集,14W首歌曲歌词
领域语料库 职位JD语料 基于公开职位采集,213W职位jd
领域语料库 古诗词语料 唐诗宋词语料集合,10W篇
领域语料库 相声剧本语料 基于公开相声剧本网站采集,6K篇
领域语料库 中文维基百科语料 中文简体版,98W篇
领域语料库 法务问答语料 法务咨询问答对,22W
领域语料库 股票问答语料 股票相关咨询问答对,10W
领域语料库 中英文对齐语料 中英文翻译对齐句子,50W
领域语料库 携程攻略50W 携程攻略文本集,50W篇
领域语料库 法律案例语料17W 17W法律案例语料,带案例标签
领域语料库 法律罪名知识库 罪名知识库,867项
领域语料库 疾病与医疗知识库 疾病与医疗知识库, 8K+疾病知识库
领域语料库 人民日报历时语料库1946-2003 1946-2003,133W篇
领域语料库 参考消息历时语料库1957-2002 1957-2002,57W篇
领域语料库 腾讯滚动新闻历时语料库2009-2016 腾讯历时滚动新闻(13板块)
领域语料库 酒店评论语料 酒店评论数据7K条
领域语料库 外卖点评语料 外卖评论数据1.2W条
领域语料库 京东商品评论语料 10类商品6W条
领域语料库 新浪微博情感语料 正文及评论10W条
领域语料库 细粒度微博情感语料 喜悦、愤怒、厌恶、低落等标签共36W条
领域语料库 电影评论语料 电影评分评论语料,200W+条
领域语料库 餐馆点评语料 餐馆点评语料,440W条
领域语料库 亚马逊商品评论语料 亚马逊商品评论语料,720W条

评测语料库

类型 名称 介绍
评测语料库 问句匹配 英文question相似问句6.5W对,中文微众银行问句集1000对
评测语料库 命名实体识别 中文电子病历命名实体识别、微软MSR命名实体识别5W条
评测语料库 情感分析 斯坦福sentibank
评测语料库 实体关系抽取 中文人物关系数据集、英文SEMEVAL2008评测数据集(NYT,NYTfilter)
评测语料库 文本蕴含 英文snli,multinli数据集116W,中文文本蕴含数据集100W
评测语料库 音乐问句解析 音乐问句解析数据集1.2W
评测语料库 幽默计算 中文幽默计算数据集(幽默类型、幽默等级、隐喻类型、隐喻等级分类等)
评测语料库 阅读理解 squad数据集
评测语料库 知识图谱补全 知识图谱链接数据集(FB15K, FB40K, Freebase, WN18,WordNet)
评测语料库 中文实体链接 基于中文百科知识的实体链接数据集1.3K
评测语料库 中文自动问答 中文智能问答数据集,两个任务(问句意图分类,航空、酒店、火车客服问答)
评测语料库 中文罪行分类 法律智能评测数据集,288W

总结

1、本项目阐述了语言资源的相关感想,并给出了目前语言资源的构建现状,目前为止收集了四个大类共53小类的语言资源数据集。
2、本项目中所涉及到的报告内容均来源于网上公开资源,对此免责声明。
3、如果有需要用到以上作者收集到的这些语料库,可以联系作者获取。
4、自然语言处理,是人工智能皇冠上的一颗明珠,懂语言者得天下,语言资源在自然语言处理中扮演着举足轻重的作用,懂语言资源者,分得天下。目前开放的网络环境,对语言资源的大繁荣提供了很大的契机。语言资源构建是一门学问,也是一种手段,现在自然语言处理技术也对语言资源的构建提供了技术上的支持,如何把握语言资源搜索策略,搭建策略,重点解决语言资源的动态更新、共享与联盟问题,将是语言资源建设未来需要解决的问题。

如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,可联系我:
1、我的github项目介绍:https://liuhuanyong.github.io
2、我的csdn博客:https://blog.csdn.net/lhy2014
3、刘焕勇,中国科学院软件研究所,[email protected]

More Repositories

1

QASystemOnMedicalKG

A tutorial and implement of disease centered Medical knowledge graph and qa system based on it。知识图谱构建,自动问答,基于kg的自动问答。以疾病为中心的一定规模医药领域知识图谱,并以该知识图谱完成自动问答与分析服务。
Python
6,145
star
2

CrimeKgAssitant

Crime assistant including crime type prediction and crime consult service based on nlp methods and crime kg,罪名法务智能项目,内容包括856项罪名知识图谱, 基于280万罪名训练库的罪名预测,基于20W法务问答对的13类问题分类与法律资讯问答功能.
Python
1,372
star
3

TextGrapher

Text Content Grapher based on keyinfo extraction by NLP method。输入一篇文档,将文档进行关键信息提取,进行结构化,并最终组织成图谱组织形式,形成对文章语义信息的图谱化展示。
Python
1,341
star
4

ComplexEventExtraction

A concept and obvious expression pattern collection of Chinese compound event extraction which then be evolved into ComplexEventGraph,本项目提出了中文复合事件的概念与显式模式,包括条件事件、因果事件、顺承事件、反转事件等事件抽取,并形成事理图谱。
Python
1,171
star
5

EventTriplesExtraction

An experiment and demo-level tool for text information extraction (event-triples extraction), which can be a route to the event chain and topic graph, 基于依存句法与语义角色标注的事件三元组抽取,可用于文本理解如文档主题链,事件线等应用。
Python
906
star
6

PersonRelationKnowledgeGraph

ChinesePersonRelationGraph, person relationship extraction based on nlp methods.中文人物关系知识图谱项目,内容包括中文人物关系图谱构建,基于知识库的数据回标,基于远程监督与bootstrapping方法的人物关系抽取,基于知识图谱的知识问答等应用。
Python
886
star
7

ChineseSemanticKB

ChineseSemanticKB,chinese semantic knowledge base, 面向中文处理的12类、百万规模的语义常用词典,包括34万抽象语义库、34万反义语义库、43万同义语义库等,可支持句子扩展、转写、事件抽象与泛化等多种应用场景。
Python
730
star
8

DomainWordsDict

DomainWordsDict, Chinese words dict that contains more than 68 domains, which can be used as text classification、knowledge enhance task。涵盖68个领域、共计916万词的专业词典知识库,可用于文本分类、知识增强、领域词汇库扩充等自然语言处理应用。
639
star
9

ChainKnowledgeGraph

ChainKnowledgeGraph, 产业链知识图谱包括A股上市公司、行业和产品共3类实体,包括上市公司所属行业关系、行业上级关系、产品上游原材料关系、产品下游产品关系、公司主营产品、产品小类共6大类。 上市公司4,654家,行业511个,产品95,559条、上游材料56,824条,上级行业480条,下游产品390条,产品小类52,937条,所属行业3,946条。
Python
555
star
10

ChineseDiachronicCorpus

ChineseDiachronicCorpus,中文历时语料库,横跨六十余年,包括腾讯历时新闻2000-2016,人民日报历时语料1946-2003,参考消息历时语料1957-2002。基于历时流通语料库,可用于历时语言变化计算、语言监测、社会文化变迁研究提供基础性的语料支持。
473
star
11

ChineseEmbedding

Chinese Embedding collection incling token ,postag ,pinyin,dependency,word embedding.中文自然语言处理向量合集,包括字向量,拼音向量,词向量,词性向量,依存关系向量.共5种类型的向量
Python
449
star
12

MedicalNamedEntityRecognition

Medical Named Entity Recognition implement using bi-directional lstm and crf model with char embedding.CCKS2017中文电子病例命名实体识别项目,主要实现使用了基于字向量的四层双向LSTM与CRF模型的网络.该项目提供了原始训练数据样本(一般醒目,出院情况,病史情况,病史特点,诊疗经过)与转换版本,训练脚本,预训练模型,可用于序列标注研究.把玩和PK使用.
Python
422
star
13

CausalityEventExtraction

Causality event extraction demo project including casual patterns and experiment on large scale corpus. 基于因果关系知识库的因果事件图谱实验项目,本项目罗列了因果显式表达的几种模式,基于这种模式和大规模语料,再经过融合等操作,可形成因果事件图谱。
Python
401
star
14

liuhuanyong.github.io

面向中文自然语言处理的六十余类实践项目及学习索引,涵盖语言资源构建、社会计算、自然语言处理组件、知识图谱、事理图谱、知识抽取、情感分析、深度学习等几个学习主题。包括作者个人简介、学习心得、语言资源、工业落地系统等,是供自然语言处理入门学习者的一个较为全面的学习资源,欢迎大家使用,并提出批评意见。
CSS
376
star
15

SentenceSimilarity

self complement of Sentence Similarity compute based on cilin, hownet, simhash, wordvector,vsm models,基于同义词词林,知网,指纹,字词向量,向量空间模型的句子相似度计算。
Python
356
star
16

KnowledgeGraphSlides

KnowledgeGraphSlides, a collection of knowledgegraph lectures, including the ccks series from 2013 to 2018, 中文知识图谱计算会议CCKS报告合集,涵盖从2013年至2018年,共48篇,从中可以看出从谷歌2012年推出知识图谱以来,中国学术界及工业界这6年来知识图谱的主流思想变迁。
343
star
17

LawCrimeMining

Law Crime Mining Based on Corpus build and content analysis by NLP methods. 基于领域语料库构建与NLP方法的裁判文书与犯罪案例文本挖掘项目
Python
295
star
18

MusicLyricChatbot

chatbot based on music region using method including es and music kb.基于14W歌曲知识库的问答尝试,功能包括歌词接龙,已知歌词找歌曲以及歌曲歌手歌词三角关系的问答。
Python
264
star
19

SiameseSentenceSimilarity

SiameseSentenceSimilarity,个人实现的基于Siamese bilstm模型的相似句子判定模型,提供训练数据集和测试数据集.
Python
263
star
20

AbstractKnowledgeGraph

AbstractKnowledgeGraph, a systematic knowledge graph that concentrate on abstract thing including abstract entity and action. 抽象知识图谱,目前规模50万,支持名词性实体、状态性描述、事件性动作进行抽象。目标于抽象知识,包括抽象实体,抽象动作,抽象事件。基于该知识图谱,可以进行不同层级的实体抽象和动作抽象,这与人类真实高度概括的认知是一致的。
Python
235
star
21

TopicCluster

A simple documentary topic analysis implement based on traditional K-means and LDA which can achieve a not-bad result. 基于Kmeans与Lda模型的多文档主题聚类,输入多篇文档,输出每个主题的关键词与相应文本,可用于主题发现与热点分析等应用,如历时话题建模,评论画像等。
Python
233
star
22

CCKS2018Summary

self summary after attending 2018全国知识图谱与语义计算大会,China Conference on Knowledge Graph and Semantic Computing
233
star
23

PersonGraphDataSet

PersonGraphDataSet, nearly 10 thousand person2person relationship facts。 人物图谱数据集,近十万的人物关系图谱事实数据库,通过人物关系抽取算法抽取+人工整理得出,可用于人物关系搜索、查询、人物关系多跳问答,以及人物关系推理等场景提供基础数据。
231
star
24

ImportantEventExtractor

An exploration for Eventline (important news Rank organized by pulic time),针对某一事件话题下的新闻报道集合,通过使用docrank算法,对新闻报道进行重要性识别,并通过新闻报道时间挑选出时间线上重要新闻。
Python
208
star
25

Word2Vector

Self complemented word embedding methods using CBOW,skip-Gram,word2doc matrix , word2word matrix ,基于CBOW、skip-gram、词-文档矩阵、词-词矩阵四种方法的词向量生成
Python
176
star
26

SequentialEventExtration

Sequential Event Experiment based on Travel note crawled from XieCheng,基于50W携程出行游记的采集与顺承事件图谱构建.
Python
176
star
27

RAGOnMedicalKG

RAGOnMedicalKG,将大模型RAG与KG结合,完成demo级问答,旨在给出基础的思路。
Python
164
star
28

HyponymyExtraction

HyponymyExtraction and Graph based on KB Schema, Baike-kb and online text extract, 基于知识概念体系,百科知识库,以及在线搜索结构化方式的词语上下位抽取与可视化展示
Python
163
star
29

ChineseTextualInference

ChineseTextualInference project including chinese corpus build and inferecence model, 中文文本推断项目,包括88万文本蕴含中文文本蕴含数据集的翻译与构建,基于深度学习的文本蕴含判定模型构建.
Python
163
star
30

EventMonitor

Event monitor based on online news corpus including event storyline and analysis,基于给定事件关键词,采集事件资讯,对事件进行挖掘和分析。
Python
150
star
31

SentenceSentimentClassifier

Sentiment Classifier base on traditional Maching learning methods, eg Bayes, SVM ,DecisionTree, KNN and Deeplearning method like MLP,CNN,RNN(LSTM). 基于机器学习与深度学习方法的情感分析算法实现与对比,包括决策树,贝叶斯,KNN, SVM ,MLP, CNN, LSTM实现
Python
138
star
32

WordMultiSenseDisambiguation

WordMultiSenseDisambiguation, chinese multi-wordsense disambiguation based on online bake knowledge base and semantic embedding similarity compute,基于百科知识库的中文词语多词义/义项获取与特定句子词语语义消歧.
Python
124
star
33

CognitiveInference

Cognitive Inference,认知推理、常识知识库、常识推理与常识推理评估的系统项目,以现有国内外已有的常识知识库为研究对象,从常识知识库资源建设和常识推理测试评估两个方面出发进行整理,并结合自己近几年来在逻辑性推理知识库的构建、应用以及理论思考进行介绍。具体包括已有常识知识库项目资源介绍、逻辑推理类知识库的项目实践集合、常识推理测试评估项目集合。
116
star
34

ChineseHumorSentiment

ChineseHumorSentiment, chinese humor sentiment mining including corpus build and mining nlp methods.中文文本幽默情绪计算项目,项目包括幽默文本语料库的构建,幽默计算模型,包括幽默等级识别,幽默类型识别,隐喻类型识别,隐喻情绪识别等,语言是幽默的,NLP也应该是幽默的.
Python
109
star
35

DocSentimentAnalysis

Syntax and Ruler-Based Doc sentiment analysis 基于依存句法规则的篇章级情感分析demo
Python
103
star
36

PoemMining

Chinese Classic Poem Mining Project including corpus buiding by spyder and content analysis by nlp methods, 基于爬虫与nlp的中国古代诗词文本挖掘项目
Python
101
star
37

WordSegment

Chinese WordSegment based on algorithms including Maxmatch (forward, backward, bidirectional), HMM,N-gramm(max prob ngram, biward ngam) etc...中文分词算法的实现,包括最大向前匹配、最大向后匹配,最大双向匹配,ngram,HMM,及其性能对比
Python
96
star
38

SentimentWordExpansion

Self complemented sentiment words expansion using seed sentiment words and so-pmi , this method is tested to be effective, 基于情感种子词与so-pmi算法的情感词扩展.
Python
84
star
39

Pinyin2Chinese

Self complemented Pinyin2Chinese demo use algorithms including Trie and HMM model , 基于隐马尔科夫模型与Trie树的拼音切分与拼音转中文的简单demo实现。
Python
82
star
40

QueryCorrection

self complemented SpellCorrection based pinyin similairity, edit distance ,基于拼音相似度与编辑距离的查询纠错。
Python
79
star
41

EventKGNELL

EventKGNELL, event knowlege graph never end learning system, a event-centric knowledge base search system,实时事理逻辑知识库终身学习系统项目和事件为核心的知识库搜索系统。包括事件概念抽取、事件因果逻辑抽取、事件数据关联推荐与推理。
71
star
42

ChineseCixing

WordForm,针对中文词语的笔画拆解,偏旁查询,拼音转换接口
Python
62
star
43

EventPredictBasedOnEG

future event predict demo based on causal event graph that covers the full industries that can predict the benefits or bad effects in accordance with the event given by the user, 基于因果事理图谱的事件预测。
Python
59
star
44

SinglepassTextCluster

SinglepassTextCluster, an TextCluster tools based on Singlepass cluster algorithm that use tfidf vector and doc2vec,which can be used for individual real-time corpus cluster task。基于single-pass算法思想的自动文本聚类小组件,内置tfidf和doc2vec两种文本向量方法,可自动输出聚类数目、类簇文档集合和簇类大小,用于自有实时数据的聚类任务。
Python
59
star
45

ChineseAntiword

chinese anti semantic word search interface based on dict crawled from online resources, ChineseAntiword,针对中文词语的反义词查询接口
Python
58
star
46

KeyInfoExtraction

Self complemented Key infomation extraction including keywords, abstract from text using algorithm like textrank ,tfidf 基于Textrank算法的文本摘要抽取与关键词抽取,基于TFIDF算法的关键词抽取
Python
53
star
47

ZhuguanDetection

Chinese Subjective Dectection based on subjective knowlegebase, 中文主观性计算。基于中文主观性知识库的句子主观性评定方法。
Python
51
star
48

TextFeatureExtraction

Self complemented text feature extraction using algorithms including CHI, DF, IG, MI for the experiment of text classification based on sogou online news, 基于卡方检验CHI,文档频率DF, 信息增益IG,互信息MI的文本特征提取与实现
Python
50
star
49

HuanNLP

self implement of NLP toolkit 个人实现NLP汉语自然语言处理组件,提供基于HMM与CRF的分词,词性标注,命名实体识别接口,提供基于CRF的依存句法接口。
Python
49
star
50

CausalCollocation

CausalKnowledgeBase, causal knowledge base including causal pairs extracted from web text using the methods like PMI, Collocation。基于网络文本的因果知识库项目,采用PMI,搭配抽取等方法,形成因果对频繁集。
47
star
51

ZhidaoChatbot

ZhidaoChatbot, a chatbot that can be an expert on the common questions like why,how,when,who,what based on the online question-answer website,基于线上公开问答数据的知道类问答机器人demo,与检索方式不同,可以进行常规问题的问答,如为什么,怎么样,是什么等,基于该方式,可以作为问答机器人常识接口,也可以作为常识知识库构建
Python
41
star
52

BaiduIndexSpyder

self complemented BaiduIndexSpyder based on Selenium , index image decode and num image transfer,基于关键词的历时百度搜索指数自动采集
Python
40
star
53

BaikeInfoExtraction

self complement of baike knowledge base info-box extraction by online analysis.基于互动百科,百度百科,搜狗百科的词条infobox结构化信息抽取,百科知识的融合
Python
36
star
54

IdealWordCloudKit

IdealWordCloudKit, A toolbox or kit for image-shape adjusted word cloud based on plain text, local file or web articles, 面向本地文件, 在线网页, 程序输入的字符云自动生成组件,支持用户自定义图片字符形状, 生成给定网页,文本的高频词和关键词词云.
Python
33
star
55

WeiboIndexSpyder

self complemented WeiboIndexSpyder based on Selenium ,新浪微博指数(微指数)采集,包括综合指数,移动端指数,PC端指数
Python
32
star
56

BaikeKnowledgeSchema

baike schema crawler for baidu baike , hudongbaike. 面向百度百科与互动百科的概念分类体系抓取脚本
Python
32
star
57

WordCollocation

Self complemented Word Collocation using MI method which is tested to be effective..基于互信息算法的词语搭配抽取
Python
29
star
58

LanguagePlatform

个人实现的基于Django与semantic-ui的语言计算实验平台, 功能包括自然语言综合处理,词语计算,社会热点计算,人物计算,文学画像,职位画像等社会计算功能
JavaScript
28
star
59

CommonSchemaKG

schemakg, a knowledge graph for schema that seeks to cover a range of things as much as possible including entity schema and event schema。试图构建起覆盖度尽可能广的schema体系,包括实体以及事件。
27
star
60

CCL2018Summary

self summary after attending CCL2018 (全国计算语言学学术会议), CCL2018参会总结,包括会议论文下载脚本,会议前言技术报告下载,以及个人的一点总结.
Python
27
star
61

SougouWordsCollector

worddict crawler and transfer for sougpuinput wordict , 搜狗输入法词库抓取与格式转换
Python
25
star
62

LanguageKnowledgeGraph

个人实现的基于django,d3js与echarts的领域知识图谱检索与计量平台.面向语言政策领,包括语言政策领域的知识检索,关系检索与钻取,计量分析,知识可视化.
JavaScript
25
star
63

CausalEventPairsDataset

CausalDataset,因果事件对,基于非结构化新闻网页文本中进行抽取得到,目前开放100688条样本,可用于搭建因果事件图谱
22
star
64

AliIndexSpyder

self complemented AlindexSpyder based on Selenium ,阿里商品指数抓取,包括淘宝采购指数,淘宝供应指数,1688供应指数。
Python
21
star
65

DescriptionKBExtraction

DescriptionPairsExtraction, entity and it's description pairs extract program based on Albert and data back-annotation. 基于Albert与结构化数据回标思路的实体概念描述知识对抽取项目,可进一步验证基于Albert的应用可能性以及数据反标下的快速数据训练。
Python
20
star
66

FinanceEventGraph

FinanceEventGraph,金融领域事件图谱开放数据集,可用于事件图谱搭建于实验,包括3865个acquire并购事件、9093个invest投资事件,总计12960的事件
19
star
67

Seq2seqAttGeneration

Seq2seqAttGeneration, an basic implementation of text generation that using seq2seq attention model to generate poem series. this project is based on Keras, can be used as a toturial
Python
17
star
68

Seq2SeqTranslation

Translation model based on sequence to sequence model. 基于seq2seq模型的翻译模型demo
Python
17
star
69

PersonalModernPoems

Personal Modern Poems,65 modern chinese pomes composed by myself which names '听说'<listening> that expresses the thought of life, love and surrounding during my bachelor period, 个人本科期间创作的个人现代中文诗集<听说>,一共65篇,分成七个章节.当时真的是风骚,多情的很....
15
star
70

Seq2seqGeneration

KerasSeq2seqGeneration, an basic implementation of text generation that using seq2seq model to generate poem series. this project is based on Keras, can be used as a toturial
Python
9
star
71

Sentence2Vector

Self complemented Sentence embedding methods using CBOW model and produce sentence embedding and sentences clusterm, 基于CBOW模型的句子向量生成
Python
5
star
72

RAG_KBQA

it's a basic implement for KBQA task based on RAG method
4
star