• Stars
    star
    1,441
  • Rank 32,667 (Top 0.7 %)
  • Language
    Python
  • Created almost 5 years ago
  • Updated about 2 years ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

CLUENER2020 中文细粒度命名实体识别 Fine Grained Named Entity Recognition

CLUENER 细粒度命名实体识别

更多细节请参考我们的 技术报告https://arxiv.org/abs/2001.04351 ./pics/header.png

clueai工具包: 三分钟三行代码搞定NLP开发(零样本学习)

数据类别:

数据分为10个标签类别,分别为: 地址(address),书名(book),公司(company),游戏(game),政府(government),电影(movie),姓名(name),组织机构(organization),职位(position),景点(scene)

标签类别定义 & 标注规则:

地址(address): **省**市**区**街**号,**路,**街道,**村等(如单独出现也标记)。地址是标记尽量完全的, 标记到最细。
书名(book): 小说,杂志,习题集,教科书,教辅,地图册,食谱,书店里能买到的一类书籍,包含电子书。
公司(company): **公司,**集团,**银行(央行,中国人民银行除外,二者属于政府机构), 如:新东方,包含新华网/中国军网等。
游戏(game): 常见的游戏,注意有一些从小说,电视剧改编的游戏,要分析具体场景到底是不是游戏。
政府(government): 包括中央行政机关和地方行政机关两级。 中央行政机关有国务院、国务院组成部门(包括各部、委员会、中国人民银行和审计署)、国务院直属机构(如海关、税务、工商、环保总局等),军队等。
电影(movie): 电影,也包括拍的一些在电影院上映的纪录片,如果是根据书名改编成电影,要根据场景上下文着重区分下是电影名字还是书名。
姓名(name): 一般指人名,也包括小说里面的人物,宋江,武松,郭靖,小说里面的人物绰号:及时雨,花和尚,著名人物的别称,通过这个别称能对应到某个具体人物。
组织机构(organization): 篮球队,足球队,乐团,社团等,另外包含小说里面的帮派如:少林寺,丐帮,铁掌帮,武当,峨眉等。
职位(position): 古时候的职称:巡抚,知州,国师等。现代的总经理,记者,总裁,艺术家,收藏家等。
景点(scene): 常见旅游景点如:长沙公园,深圳动物园,海洋馆,植物园,黄河,长江等。

数据下载地址:

数据下载

数据分布:

训练集:10748
验证集集:1343

按照不同标签类别统计,训练集数据分布如下(注:一条数据中出现的所有实体都进行标注,如果一条数据出现两个地址(address)实体,那么统计地址(address)类别数据的时候,算两条数据):
【训练集】标签数据分布如下:
地址(address):2829
书名(book):1131
公司(company):2897
游戏(game):2325
政府(government):1797
电影(movie):1109
姓名(name):3661
组织机构(organization):3075
职位(position):3052
景点(scene):1462

【验证集】标签数据分布如下:
地址(address):364
书名(book):152
公司(company):366
游戏(game):287
政府(government):244
电影(movie):150
姓名(name):451
组织机构(organization):344
职位(position):425
景点(scene):199

数据字段解释:

以train.json为例,数据分为两列:text & label,其中text列代表文本,label列代表文本中出现的所有包含在10个类别中的实体。
例如:
  text: "北京勘察设计协会副会长兼秘书长周荫如"
  label: {"organization": {"北京勘察设计协会": [[0, 7]]}, "name": {"周荫如": [[15, 17]]}, "position": {"副会长": [[8, 10]], "秘书长": [[12, 14]]}}
  其中,organization,name,position代表实体类别,
  "organization": {"北京勘察设计协会": [[0, 7]]}:表示原text中,"北京勘察设计协会" 是类别为 "组织机构(organization)" 的实体, 并且start_index为0,end_index为7 (注:下标从0开始计数)
  "name": {"周荫如": [[15, 17]]}:表示原text中,"周荫如" 是类别为 "姓名(name)" 的实体, 并且start_index为15,end_index为17
  "position": {"副会长": [[8, 10]], "秘书长": [[12, 14]]}:表示原text中,"副会长" 是类别为 "职位(position)" 的实体, 并且start_index为8,end_index为10,同时,"秘书长" 也是类别为 "职位(position)" 的实体,
  并且start_index为12,end_index为14

数据来源:

本数据是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注,原数据来源于Sina News RSS.

效果对比

模型 线上效果f1
Bert-base 78.82
RoBERTa-wwm-large-ext 80.42
Bi-Lstm + CRF 70.00

各个实体的评测结果(F1 score):

实体 bilstm+crf bert-base roberta-wwm-large-ext Human Performance
Person Name 74.04 88.75 89.09 74.49
Organization 75.96 79.43 82.34 65.41
Position 70.16 78.89 79.62 55.38
Company 72.27 81.42 83.02 49.32
Address 45.50 60.89 62.63 43.04
Game 85.27 86.42 86.80 80.39
Government 77.25 87.03 88.17 79.27
Scene 52.42 65.10 70.49 51.85
Book 67.20 73.68 74.60 71.70
Movie 78.97 85.82 87.46 63.21
Overall@Macro 70.00 78.82 80.42 63.41

基线模型(一键运行)

1.tf版本bert系列:tf_version (test, f1 80.42)

2.pytorch版本baseline:pytorch_version(79.63)

3.bilistm+crf的baseline: bilstm+crf (test, f1 70.0)

技术交流与问题讨论QQ群: 836811304 Join us on QQ group

引用我们 Cite Us

如果本目录中的内容对你的研究工作有所帮助,请在文献中引用下述报告:https://arxiv.org/abs/2001.04351

@article{xu2020cluener2020,
  title={CLUENER2020: Fine-grained Name Entity Recognition for Chinese},
  author={Xu, Liang and Dong, Qianqian and Yu, Cong and Tian, Yin and Liu, Weitang and Li, Lu and Zhang, Xuanwei},
  journal={arXiv preprint arXiv:2001.04351},
  year={2020}
 }

More Repositories

1

CLUEDatasetSearch

搜索所有中文NLP数据集,附常用英文NLP数据集
Python
4,133
star
2

CLUE

中文语言理解测评基准 Chinese Language Understanding Evaluation Benchmark: datasets, baselines, pre-trained models, corpus and leaderboard
Python
3,983
star
3

SuperCLUE

SuperCLUE: 中文通用大模型综合性基准 | A Benchmark for Foundation Models in Chinese
2,974
star
4

CLUECorpus2020

Large-scale Pre-training Corpus for Chinese 100G 中文预训练语料
919
star
5

CLUEPretrainedModels

高质量中文预训练模型集合:最先进大模型、最快小模型、相似度专门模型
Python
803
star
6

FewCLUE

FewCLUE 小样本学习测评基准,中文版
Python
492
star
7

pCLUE

pCLUE: 1000000+多任务提示学习数据集
Jupyter Notebook
467
star
8

KgCLUE

KgCLUE: 大规模中文开源知识图谱问答
Python
425
star
9

SimCLUE

3000000+语义理解与匹配数据集。可用于无监督对比学习、半监督学习等构建中文领域效果最好的预训练模型
Python
277
star
10

CLGE

Chinese Language Generation Evaluation 中文生成任务基准测评
Python
246
star
11

OCNLI

OCNLI: 中文原版自然语言推理任务
Python
145
star
12

DataCLUE

DataCLUE: 数据为中心的NLP基准和工具包
Python
144
star
13

SuperCLUElyb

SuperCLUE琅琊榜:中文通用大模型匿名对战评价基准
141
star
14

ELECTRA

中文 预训练 ELECTRA 模型: 基于对抗学习 pretrain Chinese Model
140
star
15

PyCLUE

Python toolkit for Chinese Language Understanding(CLUE) Evaluation benchmark
Python
128
star
16

SuperCLUE-Llama2-Chinese

Llama2开源模型中文版-全方位测评,基于SuperCLUE的OPEN基准 | Llama2 Chinese evaluation with SuperCLUE
127
star
17

SuperCLUE-Safety

SC-Safety: 中文大模型多轮对抗安全基准
100
star
18

SuperCLUE-RAG

中文原生检索增强生成测评基准
94
star
19

DistilBert

DistilBERT for Chinese 海量中文预训练蒸馏bert模型
89
star
20

SuperCLUE-Agent

SuperCLUE-Agent: 基于中文原生任务的Agent智能体核心能力测评基准
78
star
21

SuperCLUE-Open

中文通用大模型开放域多轮测评基准 | An Open Domain Benchmark for Foundation Models in Chinese
76
star
22

QBQTC

QBQTC: 大规模搜索匹配数据集
Python
69
star
23

CLUEWSC2020

CLUEWSC2020: WSC Winograd模式挑战中文版,中文指代消解任务
67
star
24

modelfun

一站式自动化开源标注平台
Java
62
star
25

MobileQA

离线端阅读理解应用 QA for mobile, Android & iPhone
Python
60
star
26

LightLM

高性能小模型测评 Shared Tasks in NLPCC 2020. Task 1 - Light Pre-Training Chinese Language Model for NLP Task
Python
57
star
27

ZeroCLUE

零样本学习测评基准,中文版
Python
54
star
28

SuperCLUE-Math6

SuperCLUE-Math6:新一代中文原生多轮多步数学推理数据集的探索之旅
Python
40
star
29

SuperCLUE-Auto

汽车行业中文大模型测评基准,基于多轮开放式问题的细粒度评测
28
star
30

KgCLUEbench

benchmark of KgCLUE, with different models and methods
Python
26
star
31

SuperCLUE-Role

SuperCLUE-Role中文原生角色扮演测评基准
21
star
32

SuperCLUE-Llama3-Chinese

Llama3开源模型中文版-全方位测评,基于SuperCLUE基准 | Llama3 Chinese Evaluation with SuperCLUE
17
star
33

SuperCLUE-Video

中文原生多层次文生视频测评基准
16
star
34

LGEB

LGEB: Benchmark of Language Generation Evaluation
Python
16
star
35

SuperCLUE-Industry

中文原生工业测评基准
13
star
36

SuperCLUEgkzw

SuperCLUE高考作文机器自动阅卷系统
12
star
37

SuperCLUE-Code3

中文原生等级化代码能力测试基准
10
star
38

KGQA

Knowledge Graph based Question Answering benchmark.
10
star
39

SuperCLUE-ICabin

汽车智能座舱大模型测评基准
9
star
40

chatbotzh

This is a Chatbot designed for Chinese developers base on RASA. You could deploy your bot quickly with the help of this things.
Python
8
star
41

CLUEmotionAnalysis2020

CLUE Emotion Analysis Dataset 细粒度情感分析数据集
Python
7
star
42

SuperCLUE-Image

中文原生文生图测评基准
7
star
43

SuperCLUE-Fin

中文金融大模型测评基准,六大类二十五任务、等级化评价,国内模型获得A级
7
star
44

SuperCLUE-Long

中文原生长文本测评基准
5
star
45

SuperCLUE-V

中文原生多模态理解测评基准(测评方案)
3
star
46

2024h1

中文大模型基准测评2024上半年度报告,Report of LLMs in Chinese, First Half of 2024
1
star