• Stars
    star
    116
  • Rank 303,894 (Top 6 %)
  • Language
  • Created about 4 years ago
  • Updated about 4 years ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

Cognitive Inference,认知推理、常识知识库、常识推理与常识推理评估的系统项目,以现有国内外已有的常识知识库为研究对象,从常识知识库资源建设和常识推理测试评估两个方面出发进行整理,并结合自己近几年来在逻辑性推理知识库的构建、应用以及理论思考进行介绍。具体包括已有常识知识库项目资源介绍、逻辑推理类知识库的项目实践集合、常识推理测试评估项目集合。

CognitiveInference

Cognitive Inference,认知推理、常识知识库、常识推理与常识推理评估的系统项目,以现有国内外已有的常识知识库为研究对象,从常识知识库资源建设和常识推理测试评估两个方面出发进行整理,并结合自己近几年来在逻辑性推理知识库的构建、应用以及理论思考进行介绍。具体包括已有常识知识库项目资源介绍、逻辑推理类知识库的项目实践集合、常识推理测试评估项目集合。
项目地址:https://github.com/liuhuanyong/CognitiveInference/

项目介绍

常识推理是人工智能的高级阶段,基于已有知识,运用知识推理机技术,完成限定领域决策行为,能够在充分减少人为劳动的同时,产生经济效益。例如,基于已知知识进行知识推理,采用如事件驱动传导路径等进行知识发现,能够辅助于业务的推理和辅助决策,在智能投研进行未知风险预警、在舆情分析中对公司进行舆论控制和监控。
"逻辑知识库"+"逻辑推理机"的混合协作模式,是目前实现以上目的的重要方式。 "逻辑知识库"作为描述现实社会事件之间传导关联的库,需要在规模、质量,领域针对性三个方面入手进行解决。具体地,作者通过对自己所涉及的推理项目进行系统回顾,认为,推理类常识知识库,应该从纵向和横向两个维度出发进行构建。

一、纵向常识逻辑

纵项常识逻辑需要考虑的是类人的抽象和概括能力,这个需要抽象、概念性、上下位知识的构建,可以让机器模仿人类的举一反三和概括总结的技能。例如,作者对纵向常识逻辑,形成了以下工作:
1、上下位关系图谱项目:HyponymyExtraction(https://github.com/liuhuanyong/HyponymyExtraction).

上下位这种语义关系是整个词汇语义关系中的一个重要内容,通过上下位关系,可以将世间万物进行组织和练联系起来,对于增进人们对某一实体或概念的认知上具有重要帮助,自然语言文本中存储着大量的上下位关系知识,如经过语言专家编辑整理形成的概念语义词典,如同义词词林,中文主题概念词典,hownet等,也存在开放百科知识平台当中,有效地利用这些信息,能够支持多项应用基于知识概念体系,百科知识库,以及在线搜索结构化方式的词语上下位抽取。项目实现为用户输入一个需要了解的词语,后台通过查询既定知识库,从百科知识库,在线非结构化文本中进行抽取,形成关于该词语的上下位词语网络,并以图谱这一清晰明了的方式展示出来。

2、电商商品概念与销售知识图谱项目:GoodsKG(https://github.com/liuhuanyong/GoodsKG).

项目以京东电商为实验数据来源,采集京东商品目录树,并获取其对应的底层商品概念信息,组织形成商品知识图谱。目前,该图谱包括有概念的上下位is a关系以及商品品牌与商品之间的销售sale关系共两类关系,涉及商品概念数目1300+,商品品牌数目约10万+,属性数目几千种,关系数目65万规模。该项目可以进一步增强商品领域概念体系的应用,对自然语言处理处理的几个下游应用带来帮助,如商品品牌识别,商品对象及属性级别情感分析,商品评价短语库构建,商品品牌竞争关系梳理等提供基础性的概念服务。

3、抽象知识图谱项目:AbstractKnowledgeGraph(https://github.com/liuhuanyong/AbstractKnowledgeGraph).

项目提出了一个抽象知识图谱的项目,目的是对知识抽象与泛化提供一个思路并初步实践,介绍了抽象知识图谱,对抽象图谱的现实需求进行论述。介绍了中文抽象图谱的相关工作。包括 CN-Probase,Hownet,大词林,百度百科Schema等,并给出了之前关联的项目地址。本项目提出了一个可用的抽象知识图谱构建路线,提出抽象知识图谱的实施路线并给出抽象接口实践。建成抽象知识图谱,目前规模50万,支持名词性实体、状态性描述、事件性动作进行抽象,可完成抽象知识,包括抽象实体,抽象动作,抽象事件。基于该知识图谱,可以进行不同层级的实体抽象和动作抽象,这与人类真实高度概括的认知是保持一致。

二、横向常识逻辑

横向上,需要挖掘顺承、因果、反转等多个方向的逻辑演化关系。例如,作者对横向常识逻辑,形成了以下工作:

4、顺承事件图谱项目:SequentialEventExtration(https://github.com/liuhuanyong/SequentialEventExtration).

以谓词性短语作为事件表示的方法方兴未艾,针对特定领域,构建起特定领域的顺承事件图谱,可以支持事件推理,基于事件的意图识别与推荐等多项运用。本项目基于50W文章领域语料,运用简单提取方式形成的顺承关系图谱demo,形成了事件节点为326781个, 顺承事件对为543580条,分别为30W和50W的图谱规模。

5、因果事件图谱项目:CausalityEventExtraction(https://github.com/liuhuanyong/CausalityEventExtraction).

项目以构造和总结因果模板,结合中文语言特点,构建因果语言知识库的方式,对因果事件抽取以及因果知识图谱构建进行尝试。罗列出了9类显式因果逻辑抽取模式,通过使用因果连词库,结果词库、因果模式库等,完成因果抽取、对文本进行噪声移除,非关键信息去除等进行文本预处理;基于因果模式库,完成因果对抽取,选择短语、短句、句子主干等方式进行事件表示;使用知识图谱中的实体对齐技术进行事件融合,基于业务需求,可以用相应的数据库进行存储,比如图数据库等完成事件存储。

6、复合事件图谱项目:ComplexEventExtraction(https://github.com/liuhuanyong/ComplexEventExtraction).

项目对中文复合事件抽取,包括条件事件、因果事件、顺承事件、反转事件等事件事件图谱的类型、表现形式进行了归纳,并结合复合事件模式与语料进行了实验。实验表明,反转事件,其实在某种程度上可以用来构造反义词词典,例如"不是A而是B"这种模式,可以得到很多反义的词或短语,可以用wordvector找相近词,可以靠这种方式收集反义词。汉语显示标记其实在中文文本当中还是用的很普遍,在1000W文本中,有超过半数的文本中包含以上模式。能够把显示事件图谱做好,感觉用处还是很多的。

三、常识逻辑推理

"逻辑推理机"是支配逻辑知识库的重要运算机器,通过对现有逻辑知识库,通过推理规则传导、知识关联路径匹配,完成对现有逻辑知识库的游走,最终实现单跳或多跳等后续事件的推理和预测,在这个方面,需要使用owl本体推理机、图数据库匹配、图数据库路径查找、推理规则配置、图结构预测等多种不同形式。与此同时,与逻辑推理关联的推理能力评估,也是检验常识推理智能的必要手段。例如,作者对常识逻辑推理,形成了一下工作:

7、基于问答社区的逻辑知识问答项目:ZhidaoChatbot(https://github.com/liuhuanyong/ZhidaoChatbot).

本项目完成了一个基于线上问答社区的常识逻辑性问答机器人接口demo,本项目的问答机器人接口可以满足原因逻辑,结果逻辑,可以回答为什么,有了会怎么样等问题,也可以推荐相似性的问题,可以作为基于逻辑事理知识的一种补充,问答机器人接口可以作为开源实体性问答机器人的逻辑性问答补充,也可以为逻辑性知识库的构建提供帮助。

8、基于事理图谱的未来事件预测项目:EventPredictBasedOnEG(https://github.com/liuhuanyong/EventPredictBasedOnEG).

基于海量数据进行因果挖掘,可以得到大量的因果知识,基于因果逻辑库,即历史因果,通过计算当前事件与历史事件的相似性,可以在定性的方式上做出一些方向性的预测,方向上包括两种,一种是积极信号,另一种是消极信号,项目介绍了一个基于因果图谱的既定事件未来预测的接口预测demo。

9、学迹事理实时知识库终身学习项目:EventKGNELL(https://github.com/liuhuanyong/EventKGNELL).

事理图谱版Magi,EventKGNELL, eventuality knowlege graph never end learning system,一个7*24小时不断学习的实时事理学习与搜索平台,力图紧跟实时网络信息,面向公众提供以“事件”为核心的实时结构化知识搜索服务的实时事理逻辑知识库终身学习和事件为核心的知识库搜索项目,项目实现了包括事件概念抽取、事件因果逻辑抽取、事件数据关联推荐与推理,

开放常识知识库与常识推理评测项目

本项目对现有国内外已有的常识知识库为研究对象,从常识知识库资源建设和常识推理测试评估两个方面出发进行整理,形成已有常识知识库资源集合、常识推理评测项目集合两个组成部分。

一、已有常识知识库资源集合

大类 小类 名称 地址
语言学知识库 语言标注语料库 Penn Treebank 点击查看
语言学知识库 语言标注语料库 The Penn Discourse Tree- bank (PDTB) 点击查看
语言学知识库 语言标注语料库 The Abstract Meaning Representation (AMR) corpus 点击查看
语言学知识库 词汇知识库 WordNet 点击查看
语言学知识库 词汇知识库 VerbNet 点击查看
语言学知识库 词汇知识库 VerbOcean 点击查看
语言学知识库 词汇知识库 VerbCorner 点击查看
语言学知识库 框架语义知识库 FrameNet 点击查看
语言学知识库 框架语义知识库 PropBank 点击查看
语言学知识库 预训练语义向量 GloVe 点击查看
语言学知识库 预训练语义向量 FastText 点击查看
语言学知识库 预训练语义向量 wordpiece embeddings 点击查看
常识库 常识库 YAGO 点击查看
常识库 常识库 DBpedia 点击查看
常识库 常识库 WikiTaxonomy 点击查看
常识库 常识库 Freebase 点击查看
常识库 常识库 NELL 点击查看
常识库 常识库 Probase 点击查看
常识库 常识库 Wikidata 点击查看
常识知识库 常识知识库 Cyc 点击查看
常识知识库 常识知识库 ConceptNet 点击查看
常识知识库 常识知识库 SenticNet 点击查看
常识知识库 常识知识库 Isanette and IsaCore 点击查看
常识知识库 常识知识库 COGBASE 点击查看
常识知识库 常识知识库 WebChild. 点击查看
常识知识库 常识知识库 LocatedNear 点击查看
常识知识库 常识知识库 ATOMIC 点击查看
常识知识库 常识知识库 ASER 点击查看
常识知识库 常识知识库 学迹实时事理系统 点击查看

二、常识推理评测项目资源

大类 名称 作者 规模 网址
Reference Resolution Winograd Schema Challenge Morgenstern et al., 2016 60 点击查看
Reference Resolution WinoGrande Sakaguchi et al., 2019 44.0K 点击查看
Question Answering MCTest. Richardson et al., 2013 2.00K 点击查看
Question Answering RACE. Lai et al., 2017 97.7K 点击查看
Question Answering NarrativeQA. Kocˇiský et al., 2018 46.8K 点击查看
Question Answering ARC Clark et al., 2018 7.79K 点击查看
Question Answering MCScript Ostermann et al., 2018 13.9K 点击查看
Question Answering ProPara Mishra et al., 2018 488 点击查看
Question Answering MultiRC. Khashabi et al., 2018 9.87K 点击查看
Question Answering ARCT Habernal et al., 2018 2.45K 点击查看
Question Answering SQuAD. Rajpurkar et al., 2018 151K 点击查看
Question Answering CoQA. Reddy et al., 2018 8.40K 点击查看
Question Answering QuAC. Choi et al., 2018 98.4K 点击查看
Question Answering OpenBookQA. Mihaylov et al., 2018 5.96K 点击查看
Question Answering CommonsenseQA Talmor et al., 2019 9.40K 点击查看
Question Answering DREAM. Sun et al., 2019 10.2K 点击查看
Question Answering DROP. Dua et al., 2019 96.6K 点击查看
Question Answering Cosmos QA. Huang et al., 2019 35.6K 点击查看
Question Answering MC-TACO. Zhou et al., 2019 1.89K 点击查看
Textual Enatailment RTE Challenges. Bentivogli et al., 2011 48.8K 点击查看
Textual Enatailment Conversational Entailment. Zhang & Chai, 2009 875 点击查看
Textual Enatailment SICK. Marelli et al., 2014a 9.84K 点击查看
Textual Enatailment SNLI. Bowman et al., 2015 570K 点击查看
Textual Enatailment SciTail. Khot et al., 2018 27.0K 点击查看
Textual Enatailment SherLIiC. Schmitt & Schütze, 2019 3.99K 点击查看
Plausible Inference COPA. Roemmele et al., 2011 1.00K 点击查看
Plausible Inference CBT. Hill et al., 2015 687K 点击查看
Plausible Inference ROCStories. Mostafazadeh et al., 2016 98.2K 点击查看
Plausible Inference LAMBADA. Paperno et al., 2016 10.0K 点击查看
Plausible Inference JOCI. hang et al., 2017 39.1K 点击查看
Plausible Inference CLOTH. Xie et al., 2017 99.4K 点击查看
Plausible Inference SWAG. Zellers et al., 2018 114K 点击查看
Plausible Inference ReCoRD. Zhang et al., 2018 121K 点击查看
Plausible Inference HellaSWAG. Zellers et al., 2019a 70.0K 点击查看
Plausible Inference AlphaNLI. Bhagavatula et al., 2019 171K 点击查看
Intuitive Psychology Triangle-COPA. Gordon, 2016 100 点击查看
Intuitive Psychology Story Commonsense. Rashkin et al., 2018a 161k 点击查看
Intuitive Psychology Event2Mind. Rashkin et al., 2018b 57.1K 点击查看
Intuitive Psychology SocialIQA. Sap et al., 2019b 44.8K 点击查看
Multple Tasks bAbI. Weston et al., 2016 40.0K 点击查看
Multple Tasks Inference is Everything. - - 点击查看
Multple Tasks GLUE. - - 点击查看
Multple Tasks DNC. Poliak et al., 2018a 570K 点击查看
Multple Tasks SuperGLUE. - - 点击查看

关于作者

刘焕勇, Liu Huanyong,2017年硕士毕业,目前就职于中国科学院软件研究所,专注金融、情报两大领域,从事事件抽取、事件演化、情感分析、事理(知识)图谱、常识推理、语言资源构建与应用等研发工作。主持研发自然语言处理技术开放平台数地工场、大规模实时事理知识学习系统学迹、全行业因果链查询与溯源项目寻链系统,并在智能金融、智能情报落地中负责实施了多个项目。致力于面向中文处理的基础知识库建设与理论技术开源共享,目前累计对外开放自然语言处理实践项目六十余项,其中知识图谱和事理图谱项目十六项。在openkg开放知识图谱联盟中开放工业应用知识库七类,主笔数地工场技术类系列文章二十余篇。

如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,可联系我:
1、我的自然语言处理开源项目:https://liuhuanyong.github.io
2、我的csdn技术博客:https://blog.csdn.net/lhy2014
3、我的联系方式: 刘焕勇,中国科学院软件研究所,[email protected].
4、我的共享知识库项目:刘焕勇,事理类知识库数据集,http://www.openkg.cn/organization/datahorizon.
5、我的工业项目:刘焕勇,以事理为核心的金融情报探索:https://datahorizon.cn.

More Repositories

1

QASystemOnMedicalKG

A tutorial and implement of disease centered Medical knowledge graph and qa system based on it。知识图谱构建,自动问答,基于kg的自动问答。以疾病为中心的一定规模医药领域知识图谱,并以该知识图谱完成自动问答与分析服务。
Python
6,145
star
2

CrimeKgAssitant

Crime assistant including crime type prediction and crime consult service based on nlp methods and crime kg,罪名法务智能项目,内容包括856项罪名知识图谱, 基于280万罪名训练库的罪名预测,基于20W法务问答对的13类问题分类与法律资讯问答功能.
Python
1,372
star
3

TextGrapher

Text Content Grapher based on keyinfo extraction by NLP method。输入一篇文档,将文档进行关键信息提取,进行结构化,并最终组织成图谱组织形式,形成对文章语义信息的图谱化展示。
Python
1,341
star
4

ComplexEventExtraction

A concept and obvious expression pattern collection of Chinese compound event extraction which then be evolved into ComplexEventGraph,本项目提出了中文复合事件的概念与显式模式,包括条件事件、因果事件、顺承事件、反转事件等事件抽取,并形成事理图谱。
Python
1,171
star
5

EventTriplesExtraction

An experiment and demo-level tool for text information extraction (event-triples extraction), which can be a route to the event chain and topic graph, 基于依存句法与语义角色标注的事件三元组抽取,可用于文本理解如文档主题链,事件线等应用。
Python
906
star
6

PersonRelationKnowledgeGraph

ChinesePersonRelationGraph, person relationship extraction based on nlp methods.中文人物关系知识图谱项目,内容包括中文人物关系图谱构建,基于知识库的数据回标,基于远程监督与bootstrapping方法的人物关系抽取,基于知识图谱的知识问答等应用。
Python
886
star
7

ChineseSemanticKB

ChineseSemanticKB,chinese semantic knowledge base, 面向中文处理的12类、百万规模的语义常用词典,包括34万抽象语义库、34万反义语义库、43万同义语义库等,可支持句子扩展、转写、事件抽象与泛化等多种应用场景。
Python
730
star
8

DomainWordsDict

DomainWordsDict, Chinese words dict that contains more than 68 domains, which can be used as text classification、knowledge enhance task。涵盖68个领域、共计916万词的专业词典知识库,可用于文本分类、知识增强、领域词汇库扩充等自然语言处理应用。
639
star
9

ChainKnowledgeGraph

ChainKnowledgeGraph, 产业链知识图谱包括A股上市公司、行业和产品共3类实体,包括上市公司所属行业关系、行业上级关系、产品上游原材料关系、产品下游产品关系、公司主营产品、产品小类共6大类。 上市公司4,654家,行业511个,产品95,559条、上游材料56,824条,上级行业480条,下游产品390条,产品小类52,937条,所属行业3,946条。
Python
555
star
10

ChineseDiachronicCorpus

ChineseDiachronicCorpus,中文历时语料库,横跨六十余年,包括腾讯历时新闻2000-2016,人民日报历时语料1946-2003,参考消息历时语料1957-2002。基于历时流通语料库,可用于历时语言变化计算、语言监测、社会文化变迁研究提供基础性的语料支持。
473
star
11

ChineseEmbedding

Chinese Embedding collection incling token ,postag ,pinyin,dependency,word embedding.中文自然语言处理向量合集,包括字向量,拼音向量,词向量,词性向量,依存关系向量.共5种类型的向量
Python
449
star
12

ChineseNLPCorpus

An collection of Chinese nlp corpus including basic Chinese syntatic wordset, semantic wordset, historic corpus and evaluate corpus. 中文自然语言处理的语料集合,包括语义词、领域共时、历时语料库、评测语料库等。
Python
435
star
13

MedicalNamedEntityRecognition

Medical Named Entity Recognition implement using bi-directional lstm and crf model with char embedding.CCKS2017中文电子病例命名实体识别项目,主要实现使用了基于字向量的四层双向LSTM与CRF模型的网络.该项目提供了原始训练数据样本(一般醒目,出院情况,病史情况,病史特点,诊疗经过)与转换版本,训练脚本,预训练模型,可用于序列标注研究.把玩和PK使用.
Python
422
star
14

CausalityEventExtraction

Causality event extraction demo project including casual patterns and experiment on large scale corpus. 基于因果关系知识库的因果事件图谱实验项目,本项目罗列了因果显式表达的几种模式,基于这种模式和大规模语料,再经过融合等操作,可形成因果事件图谱。
Python
401
star
15

liuhuanyong.github.io

面向中文自然语言处理的六十余类实践项目及学习索引,涵盖语言资源构建、社会计算、自然语言处理组件、知识图谱、事理图谱、知识抽取、情感分析、深度学习等几个学习主题。包括作者个人简介、学习心得、语言资源、工业落地系统等,是供自然语言处理入门学习者的一个较为全面的学习资源,欢迎大家使用,并提出批评意见。
CSS
376
star
16

SentenceSimilarity

self complement of Sentence Similarity compute based on cilin, hownet, simhash, wordvector,vsm models,基于同义词词林,知网,指纹,字词向量,向量空间模型的句子相似度计算。
Python
356
star
17

KnowledgeGraphSlides

KnowledgeGraphSlides, a collection of knowledgegraph lectures, including the ccks series from 2013 to 2018, 中文知识图谱计算会议CCKS报告合集,涵盖从2013年至2018年,共48篇,从中可以看出从谷歌2012年推出知识图谱以来,中国学术界及工业界这6年来知识图谱的主流思想变迁。
343
star
18

LawCrimeMining

Law Crime Mining Based on Corpus build and content analysis by NLP methods. 基于领域语料库构建与NLP方法的裁判文书与犯罪案例文本挖掘项目
Python
295
star
19

MusicLyricChatbot

chatbot based on music region using method including es and music kb.基于14W歌曲知识库的问答尝试,功能包括歌词接龙,已知歌词找歌曲以及歌曲歌手歌词三角关系的问答。
Python
264
star
20

SiameseSentenceSimilarity

SiameseSentenceSimilarity,个人实现的基于Siamese bilstm模型的相似句子判定模型,提供训练数据集和测试数据集.
Python
263
star
21

AbstractKnowledgeGraph

AbstractKnowledgeGraph, a systematic knowledge graph that concentrate on abstract thing including abstract entity and action. 抽象知识图谱,目前规模50万,支持名词性实体、状态性描述、事件性动作进行抽象。目标于抽象知识,包括抽象实体,抽象动作,抽象事件。基于该知识图谱,可以进行不同层级的实体抽象和动作抽象,这与人类真实高度概括的认知是一致的。
Python
235
star
22

TopicCluster

A simple documentary topic analysis implement based on traditional K-means and LDA which can achieve a not-bad result. 基于Kmeans与Lda模型的多文档主题聚类,输入多篇文档,输出每个主题的关键词与相应文本,可用于主题发现与热点分析等应用,如历时话题建模,评论画像等。
Python
233
star
23

CCKS2018Summary

self summary after attending 2018全国知识图谱与语义计算大会,China Conference on Knowledge Graph and Semantic Computing
233
star
24

PersonGraphDataSet

PersonGraphDataSet, nearly 10 thousand person2person relationship facts。 人物图谱数据集,近十万的人物关系图谱事实数据库,通过人物关系抽取算法抽取+人工整理得出,可用于人物关系搜索、查询、人物关系多跳问答,以及人物关系推理等场景提供基础数据。
231
star
25

ImportantEventExtractor

An exploration for Eventline (important news Rank organized by pulic time),针对某一事件话题下的新闻报道集合,通过使用docrank算法,对新闻报道进行重要性识别,并通过新闻报道时间挑选出时间线上重要新闻。
Python
208
star
26

Word2Vector

Self complemented word embedding methods using CBOW,skip-Gram,word2doc matrix , word2word matrix ,基于CBOW、skip-gram、词-文档矩阵、词-词矩阵四种方法的词向量生成
Python
176
star
27

SequentialEventExtration

Sequential Event Experiment based on Travel note crawled from XieCheng,基于50W携程出行游记的采集与顺承事件图谱构建.
Python
176
star
28

RAGOnMedicalKG

RAGOnMedicalKG,将大模型RAG与KG结合,完成demo级问答,旨在给出基础的思路。
Python
164
star
29

HyponymyExtraction

HyponymyExtraction and Graph based on KB Schema, Baike-kb and online text extract, 基于知识概念体系,百科知识库,以及在线搜索结构化方式的词语上下位抽取与可视化展示
Python
163
star
30

ChineseTextualInference

ChineseTextualInference project including chinese corpus build and inferecence model, 中文文本推断项目,包括88万文本蕴含中文文本蕴含数据集的翻译与构建,基于深度学习的文本蕴含判定模型构建.
Python
163
star
31

EventMonitor

Event monitor based on online news corpus including event storyline and analysis,基于给定事件关键词,采集事件资讯,对事件进行挖掘和分析。
Python
150
star
32

SentenceSentimentClassifier

Sentiment Classifier base on traditional Maching learning methods, eg Bayes, SVM ,DecisionTree, KNN and Deeplearning method like MLP,CNN,RNN(LSTM). 基于机器学习与深度学习方法的情感分析算法实现与对比,包括决策树,贝叶斯,KNN, SVM ,MLP, CNN, LSTM实现
Python
138
star
33

WordMultiSenseDisambiguation

WordMultiSenseDisambiguation, chinese multi-wordsense disambiguation based on online bake knowledge base and semantic embedding similarity compute,基于百科知识库的中文词语多词义/义项获取与特定句子词语语义消歧.
Python
124
star
34

ChineseHumorSentiment

ChineseHumorSentiment, chinese humor sentiment mining including corpus build and mining nlp methods.中文文本幽默情绪计算项目,项目包括幽默文本语料库的构建,幽默计算模型,包括幽默等级识别,幽默类型识别,隐喻类型识别,隐喻情绪识别等,语言是幽默的,NLP也应该是幽默的.
Python
109
star
35

DocSentimentAnalysis

Syntax and Ruler-Based Doc sentiment analysis 基于依存句法规则的篇章级情感分析demo
Python
103
star
36

PoemMining

Chinese Classic Poem Mining Project including corpus buiding by spyder and content analysis by nlp methods, 基于爬虫与nlp的中国古代诗词文本挖掘项目
Python
101
star
37

WordSegment

Chinese WordSegment based on algorithms including Maxmatch (forward, backward, bidirectional), HMM,N-gramm(max prob ngram, biward ngam) etc...中文分词算法的实现,包括最大向前匹配、最大向后匹配,最大双向匹配,ngram,HMM,及其性能对比
Python
96
star
38

SentimentWordExpansion

Self complemented sentiment words expansion using seed sentiment words and so-pmi , this method is tested to be effective, 基于情感种子词与so-pmi算法的情感词扩展.
Python
84
star
39

Pinyin2Chinese

Self complemented Pinyin2Chinese demo use algorithms including Trie and HMM model , 基于隐马尔科夫模型与Trie树的拼音切分与拼音转中文的简单demo实现。
Python
82
star
40

QueryCorrection

self complemented SpellCorrection based pinyin similairity, edit distance ,基于拼音相似度与编辑距离的查询纠错。
Python
79
star
41

EventKGNELL

EventKGNELL, event knowlege graph never end learning system, a event-centric knowledge base search system,实时事理逻辑知识库终身学习系统项目和事件为核心的知识库搜索系统。包括事件概念抽取、事件因果逻辑抽取、事件数据关联推荐与推理。
71
star
42

ChineseCixing

WordForm,针对中文词语的笔画拆解,偏旁查询,拼音转换接口
Python
62
star
43

EventPredictBasedOnEG

future event predict demo based on causal event graph that covers the full industries that can predict the benefits or bad effects in accordance with the event given by the user, 基于因果事理图谱的事件预测。
Python
59
star
44

SinglepassTextCluster

SinglepassTextCluster, an TextCluster tools based on Singlepass cluster algorithm that use tfidf vector and doc2vec,which can be used for individual real-time corpus cluster task。基于single-pass算法思想的自动文本聚类小组件,内置tfidf和doc2vec两种文本向量方法,可自动输出聚类数目、类簇文档集合和簇类大小,用于自有实时数据的聚类任务。
Python
59
star
45

ChineseAntiword

chinese anti semantic word search interface based on dict crawled from online resources, ChineseAntiword,针对中文词语的反义词查询接口
Python
58
star
46

KeyInfoExtraction

Self complemented Key infomation extraction including keywords, abstract from text using algorithm like textrank ,tfidf 基于Textrank算法的文本摘要抽取与关键词抽取,基于TFIDF算法的关键词抽取
Python
53
star
47

ZhuguanDetection

Chinese Subjective Dectection based on subjective knowlegebase, 中文主观性计算。基于中文主观性知识库的句子主观性评定方法。
Python
51
star
48

TextFeatureExtraction

Self complemented text feature extraction using algorithms including CHI, DF, IG, MI for the experiment of text classification based on sogou online news, 基于卡方检验CHI,文档频率DF, 信息增益IG,互信息MI的文本特征提取与实现
Python
50
star
49

HuanNLP

self implement of NLP toolkit 个人实现NLP汉语自然语言处理组件,提供基于HMM与CRF的分词,词性标注,命名实体识别接口,提供基于CRF的依存句法接口。
Python
49
star
50

CausalCollocation

CausalKnowledgeBase, causal knowledge base including causal pairs extracted from web text using the methods like PMI, Collocation。基于网络文本的因果知识库项目,采用PMI,搭配抽取等方法,形成因果对频繁集。
47
star
51

ZhidaoChatbot

ZhidaoChatbot, a chatbot that can be an expert on the common questions like why,how,when,who,what based on the online question-answer website,基于线上公开问答数据的知道类问答机器人demo,与检索方式不同,可以进行常规问题的问答,如为什么,怎么样,是什么等,基于该方式,可以作为问答机器人常识接口,也可以作为常识知识库构建
Python
41
star
52

BaiduIndexSpyder

self complemented BaiduIndexSpyder based on Selenium , index image decode and num image transfer,基于关键词的历时百度搜索指数自动采集
Python
40
star
53

BaikeInfoExtraction

self complement of baike knowledge base info-box extraction by online analysis.基于互动百科,百度百科,搜狗百科的词条infobox结构化信息抽取,百科知识的融合
Python
36
star
54

IdealWordCloudKit

IdealWordCloudKit, A toolbox or kit for image-shape adjusted word cloud based on plain text, local file or web articles, 面向本地文件, 在线网页, 程序输入的字符云自动生成组件,支持用户自定义图片字符形状, 生成给定网页,文本的高频词和关键词词云.
Python
33
star
55

WeiboIndexSpyder

self complemented WeiboIndexSpyder based on Selenium ,新浪微博指数(微指数)采集,包括综合指数,移动端指数,PC端指数
Python
32
star
56

BaikeKnowledgeSchema

baike schema crawler for baidu baike , hudongbaike. 面向百度百科与互动百科的概念分类体系抓取脚本
Python
32
star
57

WordCollocation

Self complemented Word Collocation using MI method which is tested to be effective..基于互信息算法的词语搭配抽取
Python
29
star
58

LanguagePlatform

个人实现的基于Django与semantic-ui的语言计算实验平台, 功能包括自然语言综合处理,词语计算,社会热点计算,人物计算,文学画像,职位画像等社会计算功能
JavaScript
28
star
59

CommonSchemaKG

schemakg, a knowledge graph for schema that seeks to cover a range of things as much as possible including entity schema and event schema。试图构建起覆盖度尽可能广的schema体系,包括实体以及事件。
27
star
60

CCL2018Summary

self summary after attending CCL2018 (全国计算语言学学术会议), CCL2018参会总结,包括会议论文下载脚本,会议前言技术报告下载,以及个人的一点总结.
Python
27
star
61

SougouWordsCollector

worddict crawler and transfer for sougpuinput wordict , 搜狗输入法词库抓取与格式转换
Python
25
star
62

LanguageKnowledgeGraph

个人实现的基于django,d3js与echarts的领域知识图谱检索与计量平台.面向语言政策领,包括语言政策领域的知识检索,关系检索与钻取,计量分析,知识可视化.
JavaScript
25
star
63

CausalEventPairsDataset

CausalDataset,因果事件对,基于非结构化新闻网页文本中进行抽取得到,目前开放100688条样本,可用于搭建因果事件图谱
22
star
64

AliIndexSpyder

self complemented AlindexSpyder based on Selenium ,阿里商品指数抓取,包括淘宝采购指数,淘宝供应指数,1688供应指数。
Python
21
star
65

DescriptionKBExtraction

DescriptionPairsExtraction, entity and it's description pairs extract program based on Albert and data back-annotation. 基于Albert与结构化数据回标思路的实体概念描述知识对抽取项目,可进一步验证基于Albert的应用可能性以及数据反标下的快速数据训练。
Python
20
star
66

FinanceEventGraph

FinanceEventGraph,金融领域事件图谱开放数据集,可用于事件图谱搭建于实验,包括3865个acquire并购事件、9093个invest投资事件,总计12960的事件
19
star
67

Seq2seqAttGeneration

Seq2seqAttGeneration, an basic implementation of text generation that using seq2seq attention model to generate poem series. this project is based on Keras, can be used as a toturial
Python
17
star
68

Seq2SeqTranslation

Translation model based on sequence to sequence model. 基于seq2seq模型的翻译模型demo
Python
17
star
69

PersonalModernPoems

Personal Modern Poems,65 modern chinese pomes composed by myself which names '听说'<listening> that expresses the thought of life, love and surrounding during my bachelor period, 个人本科期间创作的个人现代中文诗集<听说>,一共65篇,分成七个章节.当时真的是风骚,多情的很....
15
star
70

Seq2seqGeneration

KerasSeq2seqGeneration, an basic implementation of text generation that using seq2seq model to generate poem series. this project is based on Keras, can be used as a toturial
Python
9
star
71

Sentence2Vector

Self complemented Sentence embedding methods using CBOW model and produce sentence embedding and sentences clusterm, 基于CBOW模型的句子向量生成
Python
5
star
72

RAG_KBQA

it's a basic implement for KBQA task based on RAG method
4
star