• Stars
    star
    120
  • Rank 295,983 (Top 6 %)
  • Language
  • License
    MIT License
  • Created over 4 years ago
  • Updated 4 months ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

中文文本分析相关资源汇总

中文文本分析相关资源汇总

1. Python库

项目 地址 简介
jieba分词 https://github.com/fxsjy/jieba 中文分词库
multistop https://github.com/hidadeng/multistop 停用词表,支持中英法德等15种语言
cnsenti https://github.com/hidadeng/cnsenti 中文文本情感分析、情绪分析库
tomotopy https://github.com/bab2min/tomotopy 最快的主题模型,C的速度
cntext https://github.com/hidadeng/cntext 中文文本情感分析、情绪分析库
快速构建专属领域中文情感词典 https://github.com/hidadeng/wordexpansion 使用SO_PMI互信息算法简单快速构建不同领域(手机、汽车等)的专业情感词典
eventextraction https://github.com/hidadeng/eventextraction 计算文本逻辑性
中文复杂事件的概念与显式模式 https://github.com/hidadeng/eventextraction 中文复合事件的概念与显式模式,包括条件事件、因果事件、顺承事件、反转事件等事件抽取,并形成事理图谱。
中文信息抽取工具 https://github.com/fighting41love/cocoNLP 从中文文本数据中抽取出结构化的信息,如时间、手机号、运营商、邮箱、地址、人名、身份证
图片识别 https://github.com/breezedeus/cnocr 识别出图片中的中文文本
label-studio多媒体标注工具 https://github.com/heartexlabs/label-studio 可对文本、图片、音频和视频数据进行标注
中文可读性 https://github.com/cdimascio/py-readability-metrics 可读性算法包括Flesch-Kincaid Grade Level, Gunning Fog, ARI, Dale Chall, SMOG
Synonyms https://github.com/huyingxi/Synonyms 用于自然语言理解的很多任务:文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要,搜索引擎等。
SpaCy 中文模型 https://github.com/howl-anderson/Chinese_models_for_SpaCy SpaCy 中文模型
Scattertext可视化 https://github.com/JasonKessler/scattertext 能否分析出某个类别的文本与其他文本的用词差异;简单修改后可支持中文
HarvestText文本挖掘和预处理工具 https://github.com/blmoistawinde/HarvestText 文本挖掘和预处理工具(文本清洗、新词发现、情感分析、实体识别链接、句法分析等),无监督或弱监督(种子词)方法
开源金融大数据 https://github.com/PKUJohnson/OpenData 股票、基金、期货、宏观等金融数据。还有非金融数据,如空气质量、高考录取分、院线票房等非金融数据
中日韩分词 https://github.com/jeongukjae/python-mecab 中日韩分词工具
汉字数字(中文数字)-阿拉伯数字转换工具 https://github.com/Wall-ee/chinese2digits 最好的汉字数字(中文数字)-阿拉伯数字转换工具。
中文地址提取工具 https://github.com/shibing624/addressparser 中文地址提取工具,支持中国三级区划地址(省、市、区)提取和映射,支持地址热力图绘制。
中文公司名称分词工具 https://github.com/shibing624/companynameparser 中文公司名称分词工具,支持公司名称中的地名,品牌名(主词),行业词,公司名后缀提取。


2. 语料(数据)

资源名 地址 介绍
微信公众号语料库 https://github.com/SophonPlus/ChineseNlpCorpus 搜集、整理、发布 中文 自然语言处理 语料/数据集,与 有志之士 共同 促进 中文 自然语言处理 的 发展。
中文公司名语料库 https://github.com/wainshine/Company-Names-Corpus 公司简称,缩写,品牌词,企业名。可用于中文分词、机构名实体识别。
微信公众号语料库 https://github.com/nonamestreet/weixin_public_corpus 数据量3G;纯文本,每行一篇,JSON格式。name是微信公众号名字,account是微信公众号ID,title是题目,content是正文。
多语言音频数据 https://voice.mozilla.org/en/datasets 多种语言音频数据,包括来自42,000名贡献者超过1,400小时的语音样本,涵github
知识问答 https://github.com/liuhuanyong/MiningZhiDaoQACorpus 百度知道问答语料库,包括超过580万的问题,938万的答案,5800个分类标签。基于该问答语料库,可支持多种应用,如闲聊问答,逻辑挖掘。
中文任务基准测评 https://github.com/CLUEbenchmark/CLUE 中文语言理解测评基准,包括代表性的数据集、基准(预训练)模型、语料库、排行榜
中文突发事件语料库 https://github.com/shijiebei2009/CEC-Corpus 中文突发事件语料库(Chinese Emergency Corpus)-上海大学-语义智能实验室


3. 知识图谱

项目名 地址 简介
awesome-knowledge-graph https://github.com/husthuke/awesome-knowledge-graph 整理知识图谱相关学习资料
文档图谱信息可视化 https://github.com/liuhuanyong/TextGrapher 输入一篇文档,将文档进行关键信息提取,进行结构化,并最终组织成图谱组织形式,形成对文章语义信息的图谱化展示。
事件三元组抽取 https://github.com/liuhuanyong/EventTriplesExtraction 基于依存句法与语义角色标注的事件三元组抽取
中文人物关系抽取 https://github.com/liuhuanyong/PersonRelationKnowledgeGraph 中文人物关系图谱构建; 基于知识库的数据回标 基于远程监督与bootstrapping方法的人物关系抽取 ;基于知识图谱的知识问答等应用
证券知识图谱 https://github.com/lemonhu/stock-knowledge-graph 利用网络上公开的数据构建一个小型的证券知识图谱/知识库
大规模中文知识图谱数据 https://github.com/ownthink/KnowledgeGraphData 1.4亿中文知识图谱,百度网盘(链接: https://pan.baidu.com/s/1LZjs9Dsta0yD9NH-1y0sAw 提取码: 3hpp )注:解压密码是:https://www.ownthink.com/
京东商品知识图谱 https://github.com/liuhuanyong/ProductKnowledgeGraph 基于京东网站的1300种商品上下级概念,约10万商品品牌,约65万品牌销售关系,商品描述维度等知识库,基于该知识库可以支持商品属性库构建,商品销售问答,品牌物品生产等知识查询服务,也可用于情感分析等下游应用.
重大事件抽取 https://github.com/liuhuanyong/ImportantEventExtractor 针对某一事件话题下的新闻报道集合,通过使用docrank算法,对新闻报道进行重要性识别,并通过新闻报道时间挑选出时间线上重要新闻。


4. 如果

如果您是经管人文社科专业背景,编程小白,面临海量文本数据采集和处理分析艰巨任务,可以参看 《Python实证指标构建与文本分析》视频课。作为文科生,一样也是从两眼一抹黑开始,这门课程是用五年时间凝缩出来的。自认为讲的很通俗易懂 o( ̄︶ ̄)o,

  • Python 语法入门
  • Python网络爬虫
  • pandas数据操作
  • 文本分析(词典法)
  • 文本分析 (机器学习)
  • 词嵌入与态度认知

感兴趣的童鞋不妨戳一下 《Python实证指标构建与文本分析》 进来看看~



5. 更多

More Repositories

1

cnsenti

中文情感分析库(Chinese Sentiment))可对文本进行情绪分析、正负情感分析。Chinese sentiment analysis library, which supports counting the number of different emotional words in the text
Python
505
star
2

cntext

文本分析包,支持字数统计、可读性、文档相似度、情感分析在内的多种文本分析方法。chinese text sentiment analysis
Python
250
star
3

DaDengAndHisPython

【微信公众号:大邓和他的python】, Python语法快速入门https://www.bilibili.com/video/av44384851 Python网络爬虫快速入门https://www.bilibili.com/video/av72010301, 我的联系邮箱[email protected]
Jupyter Notebook
95
star
4

wordexpansion

使用SO_PMI互信息算法、词向量法快速构建不同领域(手机、汽车等)的专业情感词典
Python
85
star
5

shreport

上海证券交易所上市公司定期报告下载,项目地址
Python
79
star
6

eventextraction

中文复合事件抽取,能识别文本的模式,包括条件事件、顺承事件、反转事件等,可以用于文本逻辑性分析。
Python
23
star
7

cntopic

简单好用的lda话题模型,支持中英文。该库基于gensim和pyLDAvis,实现了lda话题模型及可视化功能。
Jupyter Notebook
22
star
8

weibo_crawler

weibo_crawler参考【nghuyong/WeiboSpider】https://github.com/nghuyong/WeiboSpider 对代码用法进行了简化,可以做轻度的微博数据采集。
Python
13
star
9

simtext

计算两文档间文本相似性指标
Python
12
star
10

smartscraper

SmartScraper: 简单、自动、快捷的Python网络爬虫
Python
11
star
11

text_analysis_about_social_science

社会科学类文本分析快速指南
9
star
12

Tool_Kits

涵盖网络爬虫、数据库、数据分析、机器学习、可视化、文本分析、GUI、自动化办公
8
star
13

multistop

停用词表, 同时支持中英德等15种语言。
Python
5
star
14

DataCollectionAndTextMiningWithPython

含Python语法入门、网络爬虫、文本分析、机器学习等,全部课程均含有代码课件,欢迎前来学习
Jupyter Notebook
5
star
15

hidadeng.github.io

大邓的个人博客,博客域名在下方, 访问可能有点慢啊。
HTML
4
star
16

spacyDemo

中英文在线spacy演示案例;
Python
3
star
17

pdfdocx

读取pdf、docx文件,返回文件内的文本数据。
Python
2
star
18

hidadeng

2
star
19

bsite

bsite是用于采集B站用户视频列表页、视频评论数据的python包。
Jupyter Notebook
2
star
20

ElegantBook

成功编译出带目录、参考文献的项目。
TeX
1
star
21

DengStartPage

拥有快捷关键词搜索方法的浏览器启动页
JavaScript
1
star
22

hugo-themes

1
star
23

my-favorite-typora-themes

favorite-typora-themes
CSS
1
star
24

tidytextpy

Python版的tidytext文本分析包
Jupyter Notebook
1
star
25

cnsentiDemo

Python
1
star