• Stars
    star
    2,076
  • Rank 22,254 (Top 0.5 %)
  • Language
  • Created about 5 years ago
  • Updated 10 months ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

中文医学NLP公开资源整理:术语集/语料库/词向量/预训练模型/知识图谱/命名实体识别/QA/信息抽取/模型/论文/etc

awesome_Chinese_medical_NLP

中文医学NLP公开资源整理:术语集/语料库/词向量/预训练模型/知识图谱/命名实体识别/QA/信息抽取/etc

Benchmark

  • 中文医疗信息处理挑战榜CBLUE数据集 Baseline 中文医疗信息处理挑战榜CBLUE(Chinese Biomedical Language Understanding Evaluation)是中国中文信息学会医疗健康与生物信息处理专业委员会在合法开放共享的理念下发起,由阿里云天池平台承办,并由医渡云(北京)技术有限公司、平安医疗科技、北京大学、郑州大学、鹏城实验室、哈尔滨工业大学(深圳)、同济大学、夸克、阿里巴巴达摩院等开展智慧医疗研究的单位共同协办,旨在推动中文医学NLP技术和社区的发展。

术语集/语料库

词向量/预训练模型

  • ChineseEHRBert 中文电子病历预训练Bert;用Bert测试命名实体识别,问答模型,关系提取任务
  • MC-BERTChineseBLUE数据集和模型
  • bertcner 用于命名实体识别的预训练的中文医学Bert模型
  • PCL-MedBERT 鹏城医疗BERT预训练模型
  • medbert BERT模型在中文临床自然语言处理中的应用探索与研究
  • Chinese-Word2vec-Medicine 中文生物医学领域词向量
  • SMedBERT SMedBERT
  • eHealth Building Chinese Biomedical Language Models via Multi-Level Text Discrimination

分词

知识图谱 / 关系提取

  • cMeKG github Chinese Medical Knowledge Graph
  • 瑞金医院人工智能辅助构建知识图谱大赛 糖尿病相关的学术论文以及糖尿病临床指南的实体标注和抽取实体关系任务
  • OMAHA知识图谱(药品适应症) 开放医疗与健康联盟(Open Medical and Healthcare Alliance,OMAHA)构建的药品与药品适应证的知识图谱数据
  • 医疗知识图谱数据 医疗知识图谱数据(ownthink)
  • 病人事件图谱数据集 病人事件图谱是一种新的基于RDF的医疗观察性数据表示模型,可以清晰地表示临床检查、诊断、治疗等多种事件类型以及事件的时序关系。使用三家上海三甲医院的电子病历数据,构建了包括3个专科、173395个医疗事件、501335个事件时序关系以及与5313个知识库概念链接的医疗数据集。
  • 中文症状库 这是一个包含症状实体和症状相关三元组的数据集。中文症状库的数据来自8个主流的健康咨询网站、3个中文百科网站和电子病历。它还包含了中文症状与UMLS中概念的链接结果。
  • 中医医案知识图谱 从医案中抽取临床知识构建知识图谱,帮助用户了解中医特色疗法,以及疾病(如“慢性胃炎”)的临床表现、相关疗法、相关养生保健方法等
  • herbnet 面向中药研究,根据中药领域模型的特点,构建了一个包括中医疾病,方剂,中药, 中药化学成分,药理作用,中药实验,化学实验方法在内的中药本体。 进而,基于本体实现了一系列数据库的集成,从而构建了一个中药知识图谱。
  • CHIP2020 中文医学文本实体关系抽取
  • CCKS2020 新冠知识图谱构建与问答
  • cmekg医学关系提取工具 cmekg医学关系提取

命名实体识别

  • CCKS2017 面向中文电子病历的医疗实体识别及属性抽取数据集
  • CCKS2018 面向中文电子病历的医疗实体识别及属性抽取数据集
  • CCKS2019 数据下载 面向中文电子病历的医疗实体识别及属性抽取数据集
  • CHIP2020 中文医学文本命名实体识别
  • CHIP2020 中药说明书实体识别
  • CCKS2020 面向中文电子病历的医疗实体及事件抽取
  • cmekg医学ner工具 cmekg医学ner
  • CCKS2021 面向中文电子病历的医疗实体及事件抽取

QA

  • CCIR2019 CCIR 2019 基于电子病历的数据查询类问答
  • cMedQA 中文医学QA数据集
  • cMedQA2 中文医学QA数据集
  • CMID 中文医学QA意图理解数据集
  • KGQA 基于医药知识图谱的智能问答系统
  • chatbot-base-on-Knowledge-Graph 使用深度学习方法解析问题 知识图谱存储 查询知识点 基于医疗垂直领域的对话系统
  • 中文医疗对话数据集 Chinese medical dialogue data 中文医疗对话数据集
  • webMedQA webMedQA
  • MedDialog The MedDialog dataset contains conversations (in Chinese) between doctors and patients. It has 1.1 million dialogues and 4 million utterances.
  • CHIP2020 中医文献问题生成
  • NLPEC A Medical Multi-Choice Question Dataset for the National Licensed Pharmacist Examination in China
  • CCKS2021 蕴含实体的中文医疗对话生成
  • IMCS21 CBLUE@Tianchi 中医疗对话数据集 IMCS21

术语标准化

  • CHIP2019 临床术语标准化任务:医渡云标准化7K数据集
  • CHIP2020 临床术语标准化任务

相似句对判断

  • “公益AI之星”挑战赛-新冠疫情相似句对判定大赛 比赛整理近万条真实语境下疫情相关的肺炎、支原体肺炎、支气管炎、上呼吸道感染、肺结核、哮喘、胸膜炎、肺气肿、感冒、咳血等患者提问句对,要求选手通过自然语言处理技术识别相似的患者问题。

文本分类

  • CHIP2019临床试验筛选标准短文本分类

其他

  • CHIP2018 针对中文的真实患者健康咨询语料,进行问句意图匹配
  • CHIP2019 平安医疗科技疾病问答迁移学习比赛
  • CCLUE 中文临床自然语言处理算法评估基准
  • CCKS2021 面向中文医疗科普知识的内容理解

More Repositories

1

RRHF

[NIPS2023] RRHF & Wombat
Python
784
star
2

ChineseEHRBert

A Chinese EHR Bert Pretrained Model.
Python
250
star
3

CODER

CODER: Knowledge infused cross-lingual medical term embedding for term normalization. [JBI, ACL-BioNLP 2022]
Python
71
star
4

KeBioLM

Improving Biomedical Pretrained Language Models with Knowledge [BioNLP 2021]
Python
64
star
5

Tenpai_prediction

用深层神经网络预测日本麻将立直听牌
Python
57
star
6

math401-llm

Source codes and datasets for How well do Large Language Models perform in Arithmetic tasks?
55
star
7

BioBART

BioBART: Pretraining and Evaluation of A Biomedical Generative Language Model [ACL-BioNLP 2022]
Python
50
star
8

ICD-MSMN

Code Synonyms Do Matter: Multiple Synonyms Matching Network for Automatic ICD Coding [ACL 2022]
Python
47
star
9

Triaffine-nested-ner

Fusing Heterogeneous Factors with Triaffine Mechanism for Nested Named Entity Recognition [ACL 2022 Findings]
Python
43
star
10

CHIP2020_term_normalization

CHIP2020 Task 3 术语标准化任务
Python
30
star
11

RAMM

Codes and Pre-trained models for RAMM: Retrieval-augmented Biomedical Visual Question Answering with Multi-modal Pre-training [ACM MM 2023]
Python
22
star
12

GTS

Code for Unsupervised multi-granular Chinese word segmentation and term discovery via graph partition [JBI]
Python
15
star
13

HMDB51_CNN

Use CNN to classify HMDB51.
Python
7
star
14

bios_re

Relation Extraction for BIOS
Python
7
star
15

pyserverchan

Server-chan for python. / Server酱python版。
Python
7
star
16

Deep-Learning-Playground

A playground for Deep Learning
Jupyter Notebook
6
star
17

Moleformer

Codes for Molecular Geometry-aware Transformer for accurate 3D Atomic System modeling
4
star
18

stealer

Calculate the preflop 3bet steal range in NLHE.
Python
4
star
19

ACG_translator

Train a jp2zh NMT model with ACG parallel corpus.
Python
4
star
20

embedding_script

大文档计算word2vec,glove,ngram的脚本
Python
4
star
21

GanjinZero.github.io

HTML
3
star
22

Quora-Insincere-Questions-Classification

Detect toxic content to improve online conversations
Jupyter Notebook
3
star
23

wana

python, R, linux, tensorflow, pytorch, numpy, pandas, etc. 踩坑记录
2
star
24

dangdang_gpt2

Python
2
star
25

Ace-Blocker

Calculate MTT EV, variance, VAR, min buyin, ...
Python
2
star
26

GTO_study

Some notes on GTO result.
2
star
27

Haiku_generator

Generate Haiku by seq2seq.
Python
1
star