Cool-NLPCV (持续更新中...)
Some Cool NLP and CV Repositories and Solutions
Cool-NLP | Cool-CV
旨在收集NLP中常见任务的开源解决方案、数据集、工具、学习资料、优质博客等,方便学习或快速查找。在此分享出来,供大家参考。欢迎积极分享并Star,谢谢!
会持续不定时更新,也欢迎加入共同分享。
所有内容来源于网络,如果有侵权等问题,请及时联系我删除。
1、机器学习&深度学习入门精选
- Python-100天从新手到大师
- 斯坦福大学2014(吴恩达)机器学习教程中文笔记
- 《统计学习方法》第二版的代码实现
- Coursera深度学习教程中文笔记(deeplearning.ai吴恩达)
- 《动手学深度学习》TensorFlow2.0版本
- 《动手学深度学习》Pytorch版本
- Deep-learning-with-keras-notebooks
- TensorFlow2教程及深度学习入门指南
- Pytorch模型训练实用教程
- 《机器学习》(西瓜书)公式推导解析
- 数据科学笔记以及资料搜集Data-Science-Notes
- 李宏毅《深度强化学习》笔记
- Pandas中文教程
- 各种框架的深度学习环境Docker镜像
2、词向量&Bert系列预训练模型
- 100+ Chinese Word Vectors上百种预训练中文词向量
- 腾讯词向量
- Pre-Training with Whole Word Masking for Chinese BERT(中文BERT-wwm系列模型)
- 谷歌官方BERT
- 中文ELECTRA预训练模型
- 中文XLNet预训练模型
- 中文MacBERT预训练模型
- 中文AlBert预训练模型
- 开源预训练语言模型合集
- JD客服对话数据(42G,12亿句子)预训练BERT及WordEmbedding
- 基于词颗粒度的中文WoBERT
- 高质量中文预训练模型集合:最先进大模型、最快小模型、相似度专门模型
3、自然语言处理数据集&数据下载网站
- 任务型对话数据、文本分类、实体识别&词性标注、搜索匹配、推荐系统、百科数据、指代消歧、中文完形填空数据集、中华古诗词数据库、保险行业语料库、汉语拆字字典、中文数据集平台
- 情感/观点/评论 倾向性分析、中文命名实体识别、推荐系统、FAQ 问答系统
- 维基百科、新闻语料、百科问答、社区问答、中英翻译语料
- 中文语言理解测评基准,包括代表性的数据集、基准(预训练)模型、语料库、排行榜
- 知识图谱的数据集:常识、城市、金融、农业、地理、气象、社交、物联网、医疗、娱乐、生活、商业、出行、科教等
- 新冠开放知识图谱
- 《大词林》开源75万核心实体和围绕核心实体的细粒度概念、关系列表
- 大规模医疗对话数据集:包含110万医学咨询,400万条医患对话
- 新冠及其他类型肺炎中文医疗对话数据集
- MedQuAD:(英文)医学问答数据集
- 中文医疗对话数据集Chinese medical dialogue data
- 大规模中文知识图谱数据
- 中文语音语料:说话人约3200个,音频约900小时,文本约113万条,共有约1300万字
- THUOCL(THU Open Chinese Lexicon)中文词库
- 面向中文处理的12类、百万规模的语义常用词典,包括34万抽象语义库、34万反义语义库、43万同义语义库等
- 百度知道问答语料库,包括超过580万的问题,938万的答案,5800个分类标签
- 公司名语料库、机构名语料库
- 中英文NLP数据集
- chinese-poetry: 最全中文诗歌古典文集数据库
- 智源数据开放研究中心
- 百度大脑
- 滴滴数据开放计划
- 天池数据集大全(涵盖文本、图像、推荐、交通、语音等)
4、基于Bert(bert4keras)的各类任务统一框架实现:
6、Macadam是一个以Tensorflow(Keras)和bert4keras为基础,专注于文本分类、序列标注和关系抽取的自然语言处理工具包,
- 支持RANDOM、WORD2VEC、FASTTEXT、BERT、ALBERT、ROBERTA、NEZHA、XLNET、ELECTRA、GPT-2等EMBEDDING嵌入
- 支持FineTune、FastText、TextCNN、CharCNN、BiRNN、RCNN、DCNN、CRNN、DeepMoji、SelfAttention、HAN、Capsule等文本分类算法
- 支持CRF、Bi-LSTM-CRF、CNN-LSTM、DGCNN、Bi-LSTM-LAN、Lattice-LSTM-Batch、MRC等序列标注算法
7、论文合集&实战分享
- NLP相关顶会(如ACL、EMNLP、NAACL、COLING、AAAI、IJCAI)的论文、开源代码项目合集
- NLP论文多个领域经典、顶会、必读整理分享
- 深度学习模型在各大公司实战落地细节解读,主要包括搜索/推荐/自然语言处理方向
8、实体识别合集
- 基于TF:BERT-BiLSTM-CRF-NER
- 基于TF+Pytorch:CLUENER 细粒度命名实体识别
- 基于Pytorch:Chinese NER(Named Entity Recognition) using BERT(Softmax, CRF, Span)
- 基于TF:命名实体识别实践与探索
- 工业界如何解决NER问题?12个trick,与你分享
- 中文NER的正确打开方式: 词汇增强方法总结 (从Lattice LSTM到FLAT)
- 支持批并行的LatticeLSTM
- medical_NER - 中文医学知识图谱命名实体识别
- BERT/CRF实现的命名实体识别
- 用预训练语言模型ALBERT做中文NER
- 用 bilstm-crf,bert及相关方法进行序列标注
- BILSTM+CRF做医疗实体识别,包含医疗NER数据
- DeepIE:基于深度学习的信息抽取技术
9、文本(情感)分类
- 基于CNN,RNN 和NLP中预训练模型构建的多个常见的文本分类模型
- 中文文本分类,TextCNN,TextRNN,FastText,TextRCNN,BiLSTM_Attention, DPCNN, Transformer,基于pytorch
- 腾讯开源深度学习文本分类工具:NeuralNLP-NeuralClassifier,基于Pytorch
- Keras-TextClassification
- 中文ULMFiT 情感分析 文本分类
- 基于Bert、Xlnet + cnn、lstm、gru的文本分类
- 如何解决NLP分类任务的11个关键问题
- 文本分类资料综述总结(含代码)
10、关系抽取(三元组抽取)
- 基于远监督的中文关系抽取
- 基于DGCNN和概率图的轻量级信息抽取模型
- 用bert4keras做三元组抽取
- 信息抽取冠军方案分享:嵌套NER+关系抽取+实体标准化
- ACL2020信息抽取相关论文汇总
- Nlp中的实体关系抽取方法总结
- DeepKE:基于 Pytorch 的深度学习中文关系抽取框架
- 基于TensorFlow的实体及关系抽取,2019语言与智能技术竞赛信息抽取任务解决方案
- 一种级联指针三元组抽取框架
- 事件抽取方法总结(含代码)
- DeepIE:基于深度学习的信息抽取技术
11、文本生成、文本摘要
12、阅读理解
13、知识图谱
- 基于医药知识图谱的智能问答系统
- 京东商品知识图谱
- 军事领域知识图谱问答项目
- 百度百科中文页面,抽取三元组信息,构建中文知识图谱
- 基于知识图谱的问答系统
- 《知识图谱》课程资料
- 农业知识图谱(AgriKG):农业领域的信息检索,命名实体识别,关系抽取,智能问答,辅助决策
- 知识图谱构建,自动问答,基于kg的自动问答:以疾病为中心的一定规模医药领域知识图谱,并以该知识图谱完成自动问答与分析服务
- 知识图谱相关学习资料,提供系统化的知识图谱学习路径
14、文本相似度计算(判定)
- 中文问题句子相似度计算比赛及方案汇总
- 中国法研杯相似案例匹配Top1团队解决方案
- 常用文本匹配模型tf版本,数据集为QA_corpus
- 文本匹配的相关模型DSSM,ESIM,ABCNN,BIMPM等,数据集为LCQMC官方数据
- 基于Siamese bilstm模型的相似句子判定模型,提供训练数据集和测试数据集
15、Attention(注意力机制)、Transformer
- 深度学习中的注意力模型
- 《Attention is All You Need》浅读(简介+代码)
- 通俗易懂:8大步骤图解注意力机制
- Transformer如戏,全靠Mask
- 放弃幻想,全面拥抱Transformer:自然语言处理三大特征抽取器(CNN/RNN/TF)比较
16、机器人、问答
- 智能客服、聊天机器人的应用和架构、算法分享和介绍
- 微软聊天机器人框架BotFramework
- 聊天机器人框架RASA
- GPT2 for Chinese chitchat/用于中文闲聊的GPT2模型
- 基于金融-司法领域(兼有闲聊性质)的聊天机器人
- 基于rasa_nlu,rasa_core,rasa_core_sdk构建的聊天机器人
17、Embedding系列
- nlp中的词向量对比:word2vec/glove/fastText/elmo/GPT/bert
- 乘风破浪的PTM:两年来预训练模型的技术进展
- 万字长文解析词向量(W2C/Fasttext/Glove)
- Embedding入门必读的十篇论文
18、Bert解读系列
- BERT模型图解
- NLP预训练模型:从transformer到albert
- Bert时代的创新(应用篇):Bert在NLP各领域的应用进展
- 从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
- XLNet:运行机制及和Bert的异同比较
19、NLP任务处理合集,包括但不限于词向量、命名实体识别、文本分类、文本生成、文本相似性计算、关系抽取、中文分词、词性标注、情感分析、新词发现、关键词、文本摘要、文本聚类等
- NLP相关的一些论文及代码, 包括主题模型、词向量、命名实体识别、文本分类、文本生成、文本相似性计算等,涉及到各种与nlp相关的算法,基于keras和tensorflow
- Jiagu自然语言处理工具 - 以BiLSTM等模型为基础,提供知识图谱关系抽取 中文分词 词性标注 命名实体识别 情感分析 新词发现 关键词 文本摘要 文本聚类等功能
- Texthero:文本数据高效处理包,包括预处理、关键词提取、命名实体识别、向量空间分析、文本可视化等
- 基于Pytorch的Bert应用,包括命名实体识别、情感分析、文本分类以及文本相似度等
20、NLP基础工具包
- 清华THULAC
- HanLP
- 哈工大LTP
- Jieba
- NLPIR汉语分词
- JioNLP:中文NLP任务预处理工具包,准确、高效、零使用门槛
- Time-Extractor:中文文本时间抽取、时间转换及标准化
- TexSmart: 文本理解工具与服务
21、文本对抗、数据增强、少样本、零样本、半监督
- TextAttack:一个用于NLP对抗性攻击、数据扩充和模型训练的框架
- 对抗训练浅谈:意义、方法和思考(附Keras实现)
- 中文语料的EDA数据增强工具
- 一文搞懂NLP中的对抗训练FGSM/FGM/PGD/FreeAT/YOPO/FreeLB/SMART
- NLP中的对抗训练 + PyTorch实现
- BERT的MLM模型也能小样本学习
22、NLP标注工具或平台
23、NLP面试指南
- NLP算法面试必备!史上最全!PTMs:NLP预训练模型的全面总结
- NLP/AI面试全记录(持续更新,最全预训练总结)
- 机器学习、NLP面试中常考到的知识点和代码实现
- 关于Attention和Transformer的灵魂拷问
24、人工智能技术系列报告
26、语音识别
27、Seq2Seq
28、竞赛精选
- NLP比赛的TOP方案
- 首届中文NL2SQL挑战赛冠军方案
- 首届中文NL2SQL挑战赛季军方案与代码
- Kaggle竞赛宝典方案汇总
- 推荐算法竞赛TOP方案合集
- Data competition Top Solution 数据竞赛top解决方案开源整理
29、模型蒸馏
30、训练技巧
31、竞赛网站
32、论文检索下载
33、推荐系统