text_analysis_tools
文本分析工具包, 可以直接运行 “python examples.py” 进行样例测试。
目录
- test_data: 测试数据
- text_analysis_tools: 功能API
- examples.py: 使用样例
功能
- 文本分类
- 文本聚类
- 文本相似性
- 关键词抽取
- 关键短语抽取
- 情感分析
- 文本纠错
- 文本摘要
- 主题关键词
- 同义词、近义词
- 事件三元组抽取
注意事项
- 采用词向量生成同义词、近义词功能,需用户自己指定预训练词向量
There are no reviews yet. Be the first to send feedback to the community and the maintainers!
text_clustering
文本聚类(Kmeans、DBSCAN、LDA、Single-pass)multi_label_classification
基于pytorch + bert的多标签文本分类(multi label text classification)Multi_Label_TextCNN
textcnn多标签文本分类OneStop_QAMaker
采用一个模型同时实现问题生成和答案生成text_similarity
文本相似性FastText
FastText 文本分类TextRCNN
TextRCNN 文本分类Event_Triple_Extraction
采用LTP(分词、词性标注、句法依存、角色标注)抽取事件三元组knowledge_distillation
knowledge distillation: 采用知识蒸馏,训练bert后指导textcnnmulti_label_fasttext
fasttext 多标签文本分类Event_Extraction
采用bert进行事件抽取,[cls]进行事件分类,最后一层向量进行序列标注,两个任务同时训练。TextRNN
bilstm + softmax 文本分类multi_label_text_classification_sklearn
sklearn 多标签文本分类ner_by_dict
NER-采用自定义词典进行命名实体识别text_classification_pytorch
pytorch文本分类(DNN,TextCNN,TextRNN,TextRCNN,RNNATT,DPCNN,HAN,BERT)keywords_text_classification
基于关键词进行文本分类text-summarization
中文文本摘要text_classification_tf2
基于tensorflow2文本分类、迁移学习spell_correct
中、英文拼写纠错TextCnn
TextCnn单标签文本分类relation_extraction
采用pipeline的方式实现关系抽取,NER + Relation Classificationforward_backward_max_match_ner
基于前向、后向最大匹配算法,结合人工搜集词典,进行命名实体识别预标注gensim_lda
采用gensim训练lda模型BiLSTM_CRF
bilstm_crf 解决序列标注问题bert_siamese_similarity
采用bert作为编码器实现孪生网络Text_RNN_Attention
RNN + Attention 文本分类ElasticSearch_tutorial
ElasticSearch简单教程及简单使用案例Key_Phrase_Extraction
关键短语抽取BERT_NER
基于bert+softmax, bert+crf进行中文实体识别gensim_train_model
采用gensim训练模型bert_of_theseus_torch
BERT-of-Theseus 模型壓縮方法的pytorch實現Graph_Algorithm
整理一些图相关算法知识sentiment_analysis
中文情感分析LearningTensorflow
学习tensorflowcouplet-gpt2
基于gpt2的对对联模型Synonym_and_Text_Similarity
采用预训练词向量输出同义词及结合WMD计算文本相似性couplet
采用seq2seq架构训练“对对联”模型pyspark_usage
spark、pyspark一些基本操作text_keywords
中文文本关键词提取Love Open Source and this site? Check out how you can help us