• Stars
    star
    246
  • Rank 163,723 (Top 4 %)
  • Language
    Python
  • Created over 4 years ago
  • Updated almost 4 years ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

Chinese Language Generation Evaluation 中文生成任务基准测评

CLGE

Chinese Language Generation Evaluation 中文生成任务基准测评

为中文生成任务提供数据集、基准(预训练)模型和排行榜。

一键运行

1、克隆项目 
   git clone --depth=1 https://github.com/CLUEbenchmark/CLGE.git
2、下载任务数据集并解压至 CLGEdataset,进入到相应任务的目录
   例如运行 csl 任务
       cd CLGE/tasks/csl  
3、运行对应任务的脚本: 会自动安装依赖、下载模型并开始运行。
       sh run_bert_base.sh
   如运行 sh run_bert_base.sh 会开始 csl 任务在 BERT_base 上的训练

文本生成方法

1. LSTM-seq2seq

参考:苏剑林. (2018, Sep 01). 《玩转Keras之seq2seq自动生成标题 》[Blog post]. Retrieved from https://spaces.ac.cn/archives/5861

2. BERT-UNILM 方案

参考:苏剑林. (2019, Sep 18). 《从语言模型到Seq2Seq:Transformer如戏,全靠Mask 》[Blog post]. Retrieved from https://spaces.ac.cn/archives/6933

测评指标

1. Rouge-1

rouge-1 比较生成文本和参考文本之间的重叠词(字)数量

2. Rouge-2

rouge-2 比较生成文本和参考文本之间的 2-gram 重叠的数量

3. Rouge-L

rouge-l 根据生成文本和参考文本之间的最长公共子序列得出

4. BLEU

Bilingual Evaluation Understudy

数据集介绍

1. CSL 中长文本摘要生成

百度网盘 提取码: u6mc

中文科学文献数据(CSL),选取 10k 条计算机相关领域论文及其标题作为训练集。

数据量:训练集(3,000),验证集(500),测试集(500)
示例:
{
    title: 基于活跃时间分组的软件众包工人选择机制
    content: 针对现有的软件众包工人选择机制对工人间协同开发考虑不足的问题,在竞标模式的基础上提出一种基于活跃时间分组的软件众包工人选择机制。首先,基于活跃时间将众包工人划分为多个协同开发组;然后,根据组内工人开发能力和协同因子计算协同工作组权重;最后,选定权重最大的协同工作组为最优工作组,并根据模块复杂度为每个任务模块从该组内选择最适合的工人。实验结果表明,该机制相比能力优先选择方法在工人平均能力上仅有0. 57%的差距,同时因为保证了工人间的协同而使项目风险平均降低了32%,能有效指导需多人协同进行的众包软件任务的工人选择。
}

运行结果

模型 Rouge-L Rouge-1 Rouge-2 BLEU 训练参数
ALBERT-tiny 48.11 52.75 37.96 21.63 batch_size=8, length=256, epoch=10, lr=1e-5
BERT-base 59.76 63.83 51.29 41.45 batch_size=8, length=256, epoch=10, lr=1e-5
BERT-wwm-ext 59.40 63.44 51.00 41.19 batch_size=8, length=256, epoch=10, lr=1e-5
RoBERTa-wwm-ext 58.99 63.23 50.74 41.31 batch_size=8, length=256, epoch=10, lr=1e-5
RoBERTa-wwm-large - - - - batch_size=4, length=256, epoch=10, lr=1e-5
LSTM-seq2seq 41.80 46.48 30.48 22.00 batch_size=64, length=256, epoch=20, lr=1e-3

Contribution

Share your data set with community or make a contribution today! Just send email to chineseGLUE#163.com,

or join QQ group: 836811304

Reference

[1] bert4keras:https://github.com/bojone/bert4keras

[2] 玩转Keras之seq2seq自动生成标题:https://kexue.fm/archives/5861#seq2seq%E6%8F%90%E5%8D%87

More Repositories

1

CLUEDatasetSearch

搜索所有中文NLP数据集,附常用英文NLP数据集
Python
4,023
star
2

CLUE

中文语言理解测评基准 Chinese Language Understanding Evaluation Benchmark: datasets, baselines, pre-trained models, corpus and leaderboard
Python
3,934
star
3

SuperCLUE

SuperCLUE: 中文通用大模型综合性基准 | A Benchmark for Foundation Models in Chinese
2,908
star
4

CLUENER2020

CLUENER2020 中文细粒度命名实体识别 Fine Grained Named Entity Recognition
Python
1,440
star
5

CLUECorpus2020

Large-scale Pre-training Corpus for Chinese 100G 中文预训练语料
898
star
6

CLUEPretrainedModels

高质量中文预训练模型集合:最先进大模型、最快小模型、相似度专门模型
Python
795
star
7

FewCLUE

FewCLUE 小样本学习测评基准,中文版
Python
489
star
8

pCLUE

pCLUE: 1000000+多任务提示学习数据集
Jupyter Notebook
455
star
9

KgCLUE

KgCLUE: 大规模中文开源知识图谱问答
Python
422
star
10

SimCLUE

3000000+语义理解与匹配数据集。可用于无监督对比学习、半监督学习等构建中文领域效果最好的预训练模型
Python
271
star
11

DataCLUE

DataCLUE: 数据为中心的NLP基准和工具包
Python
144
star
12

ELECTRA

中文 预训练 ELECTRA 模型: 基于对抗学习 pretrain Chinese Model
140
star
13

OCNLI

OCNLI: 中文原版自然语言推理任务
Python
139
star
14

SuperCLUElyb

SuperCLUE琅琊榜:中文通用大模型匿名对战评价基准
139
star
15

PyCLUE

Python toolkit for Chinese Language Understanding(CLUE) Evaluation benchmark
Python
128
star
16

SuperCLUE-Llama2-Chinese

Llama2开源模型中文版-全方位测评,基于SuperCLUE的OPEN基准 | Llama2 Chinese evaluation with SuperCLUE
125
star
17

SuperCLUE-Safety

SC-Safety: 中文大模型多轮对抗安全基准
93
star
18

DistilBert

DistilBERT for Chinese 海量中文预训练蒸馏bert模型
89
star
19

SuperCLUE-RAG

中文原生检索增强生成测评基准
79
star
20

SuperCLUE-Agent

SuperCLUE-Agent: 基于中文原生任务的Agent智能体核心能力测评基准
76
star
21

SuperCLUE-Open

中文通用大模型开放域多轮测评基准 | An Open Domain Benchmark for Foundation Models in Chinese
74
star
22

QBQTC

QBQTC: 大规模搜索匹配数据集
Python
67
star
23

CLUEWSC2020

CLUEWSC2020: WSC Winograd模式挑战中文版,中文指代消解任务
65
star
24

MobileQA

离线端阅读理解应用 QA for mobile, Android & iPhone
Python
60
star
25

modelfun

一站式自动化开源标注平台
Java
59
star
26

LightLM

高性能小模型测评 Shared Tasks in NLPCC 2020. Task 1 - Light Pre-Training Chinese Language Model for NLP Task
Python
57
star
27

ZeroCLUE

零样本学习测评基准,中文版
Python
54
star
28

SuperCLUE-Math6

SuperCLUE-Math6:新一代中文原生多轮多步数学推理数据集的探索之旅
Python
33
star
29

KgCLUEbench

benchmark of KgCLUE, with different models and methods
Python
27
star
30

SuperCLUE-Auto

汽车行业中文大模型测评基准,基于多轮开放式问题的细粒度评测
21
star
31

SuperCLUE-Role

SuperCLUE-Role中文原生角色扮演测评基准
18
star
32

SuperCLUE-Llama3-Chinese

Llama3开源模型中文版-全方位测评,基于SuperCLUE基准 | Llama3 Chinese Evaluation with SuperCLUE
17
star
33

LGEB

LGEB: Benchmark of Language Generation Evaluation
Python
16
star
34

SuperCLUE-Video

中文原生多层次文生视频测评基准
15
star
35

SuperCLUEgkzw

SuperCLUE高考作文机器自动阅卷系统
13
star
36

SuperCLUE-Industry

中文原生工业测评基准
11
star
37

KGQA

Knowledge Graph based Question Answering benchmark.
10
star
38

SuperCLUE-Code3

中文原生等级化代码能力测试基准
9
star
39

chatbotzh

This is a Chatbot designed for Chinese developers base on RASA. You could deploy your bot quickly with the help of this things.
Python
8
star
40

CLUEmotionAnalysis2020

CLUE Emotion Analysis Dataset 细粒度情感分析数据集
Python
7
star
41

SuperCLUE-Fin

中文金融大模型测评基准,六大类二十五任务、等级化评价,国内模型获得A级
7
star
42

SuperCLUE-Image

中文原生文生图测评基准
6
star
43

SuperCLUE-ICabin

汽车智能座舱大模型测评基准
5
star
44

SuperCLUE-Long

中文原生长文本测评基准
5
star