• Stars
    star
    919
  • Rank 49,718 (Top 1.0 %)
  • Language
  • License
    MIT License
  • Created almost 5 years ago
  • Updated about 2 years ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

Large-scale Pre-training Corpus for Chinese 100G 中文预训练语料

CLUECorpus2020

语料介绍

通过对Common Crawl的中文部分进行语料清洗,最终得到100GB的高质量中文预训练语料。实验产出的模型见:高质量中文预训练模型,大号、超小和相似度预训练模型。

更多细节请参考我们的技术报告 https://arxiv.org/pdf/2003.01355

./pics/corpus.png

数据特点:

  1. 可直接用于预训练、语言模型或语言生成任务。
  2. 发布专用于简体中文NLP任务的小词表。

词表介绍

Google原始中文词表和我们发布的小词表的统计信息如下:

Token Type Google CLUE
Simplified Chinese 11378 5689
Traditional Chinese 3264
English 3529 1320
Japanese 573
Korean 84
Emoji 56
Numbers 1179 140
Special Tokens 106 106
Other Tokens 959 766
Total 21128 8021

实验效果

使用小数据集在BERT-base上的效果对比:

Model Vocab Data Steps AFQMC TNEWS' IFLYTEK' CMNLI AVG
BERT-base Google Wiki (1 GB) 125K 69.93% 54.77% 57.54% 75.64% 64.47%
BERT-base Google C5 (1 GB) 125K 69.63% 55.72% 58.87% 75.75% 64.99%
BERT-base CLUE C5 (1 GB) 125K 69.00% 55.04% 59.07% 75.84% 64.74%
BERT-base mm Google C5 (1 GB) 125K 69.57% 55.17% 59.69% 75.86% 65.07%
BERT-base Google C5 (1 GB) 375K 69.85% 55.97% 59.62% 76.41% 65.46%
BERT-base CLUE C5 (1 GB) 375K 69.93% 56.38% 59.35% 76.58% 65.56%
BERT-base Google C5 (3 GB) 375K 70.22% 56.41% 59.58% 76.70% 65.73%
BERT-base CLUE C5 (3 GB) 375K 69.49% 55.97% 60.12% 77.66% 65.81%

更多实验结果和分析可以参考:CLUEPretrainedModels

数据下载

申请方式: 将使用语料研究目的和用途,计划、研究机构和申请者介绍,发送到邮箱,并承诺不向第三方提供。

邮箱: [email protected],标题是:CLUECorpus2020 200G语料库

CLUECorpusSmall(14G)

可用于语言建模、预训练或生成型任务等,数据量超过14G,近4000个定义良好的txt文件、50亿个字。主要部分来自于nlp_chinese_corpus项目

当前语料库按照【预训练格式】处理,内含有多个文件夹;每个文件夹有许多不超过4M大小的小文件,文件格式符合预训练格式:每句话一行,文档间空行隔开。

包含如下子语料库(总共14G语料):

1、新闻语料 news2016zh_corpus: 8G语料,分成两个上下两部分,总共有2000个小文件。 密码:mzlk

2、社区互动-语料 webText2019zh_corpus:3G语料,包含3G文本,总共有900多个小文件。 密码:qvlq

3、维基百科-语料 wiki2019zh_corpus:1.1G左右文本,包含300左右小文件。 密码:xv7e

4、评论数据-语料 comments2019zh_corpus:2.3G左右文本,共784个小文件,包括点评评论547个、亚马逊评论227个,合并ChineseNLPCorpus的多个评论数据,清洗、格式转换、拆分成小文件。 密码:gc3m

反馈和支持

可以提交issue,加入讨论群(QQ:836811304)

或发送邮件 [email protected]

Research supported with Cloud TPUs from Google's TensorFlow Research Cloud (TFRC)

引用

@article{CLUECorpus2020,
  title={CLUECorpus2020: A Large-scale Chinese Corpus for Pre-training Language Model},
  author={Liang Xu and Xuanwei Zhang and Qianqian Dong},
  journal={ArXiv},
  year={2020},
  volume={abs/2003.01355}
}

捐赠

CLUE是一个致力于中文自然语言处理的开源组织,如果您觉得我们的工作对您的学习或者业务等有帮助,希望能得到您的赞助,以便我们后续为大家提供更多更有用的开源工作,让我们一起为中文自然语言处理的发展和进步,尽一份力~

请备注捐赠者机构和姓名,非常感谢!

支付宝 微信

More Repositories

1

CLUEDatasetSearch

搜索所有中文NLP数据集,附常用英文NLP数据集
Python
4,133
star
2

CLUE

中文语言理解测评基准 Chinese Language Understanding Evaluation Benchmark: datasets, baselines, pre-trained models, corpus and leaderboard
Python
3,983
star
3

SuperCLUE

SuperCLUE: 中文通用大模型综合性基准 | A Benchmark for Foundation Models in Chinese
2,974
star
4

CLUENER2020

CLUENER2020 中文细粒度命名实体识别 Fine Grained Named Entity Recognition
Python
1,441
star
5

CLUEPretrainedModels

高质量中文预训练模型集合:最先进大模型、最快小模型、相似度专门模型
Python
803
star
6

FewCLUE

FewCLUE 小样本学习测评基准,中文版
Python
492
star
7

pCLUE

pCLUE: 1000000+多任务提示学习数据集
Jupyter Notebook
467
star
8

KgCLUE

KgCLUE: 大规模中文开源知识图谱问答
Python
425
star
9

SimCLUE

3000000+语义理解与匹配数据集。可用于无监督对比学习、半监督学习等构建中文领域效果最好的预训练模型
Python
277
star
10

CLGE

Chinese Language Generation Evaluation 中文生成任务基准测评
Python
246
star
11

OCNLI

OCNLI: 中文原版自然语言推理任务
Python
145
star
12

DataCLUE

DataCLUE: 数据为中心的NLP基准和工具包
Python
144
star
13

SuperCLUElyb

SuperCLUE琅琊榜:中文通用大模型匿名对战评价基准
141
star
14

ELECTRA

中文 预训练 ELECTRA 模型: 基于对抗学习 pretrain Chinese Model
140
star
15

PyCLUE

Python toolkit for Chinese Language Understanding(CLUE) Evaluation benchmark
Python
128
star
16

SuperCLUE-Llama2-Chinese

Llama2开源模型中文版-全方位测评,基于SuperCLUE的OPEN基准 | Llama2 Chinese evaluation with SuperCLUE
127
star
17

SuperCLUE-Safety

SC-Safety: 中文大模型多轮对抗安全基准
100
star
18

SuperCLUE-RAG

中文原生检索增强生成测评基准
94
star
19

DistilBert

DistilBERT for Chinese 海量中文预训练蒸馏bert模型
89
star
20

SuperCLUE-Agent

SuperCLUE-Agent: 基于中文原生任务的Agent智能体核心能力测评基准
78
star
21

SuperCLUE-Open

中文通用大模型开放域多轮测评基准 | An Open Domain Benchmark for Foundation Models in Chinese
76
star
22

QBQTC

QBQTC: 大规模搜索匹配数据集
Python
69
star
23

CLUEWSC2020

CLUEWSC2020: WSC Winograd模式挑战中文版,中文指代消解任务
67
star
24

modelfun

一站式自动化开源标注平台
Java
62
star
25

MobileQA

离线端阅读理解应用 QA for mobile, Android & iPhone
Python
60
star
26

LightLM

高性能小模型测评 Shared Tasks in NLPCC 2020. Task 1 - Light Pre-Training Chinese Language Model for NLP Task
Python
57
star
27

ZeroCLUE

零样本学习测评基准,中文版
Python
54
star
28

SuperCLUE-Math6

SuperCLUE-Math6:新一代中文原生多轮多步数学推理数据集的探索之旅
Python
40
star
29

SuperCLUE-Auto

汽车行业中文大模型测评基准,基于多轮开放式问题的细粒度评测
28
star
30

KgCLUEbench

benchmark of KgCLUE, with different models and methods
Python
26
star
31

SuperCLUE-Role

SuperCLUE-Role中文原生角色扮演测评基准
21
star
32

SuperCLUE-Llama3-Chinese

Llama3开源模型中文版-全方位测评,基于SuperCLUE基准 | Llama3 Chinese Evaluation with SuperCLUE
17
star
33

SuperCLUE-Video

中文原生多层次文生视频测评基准
16
star
34

LGEB

LGEB: Benchmark of Language Generation Evaluation
Python
16
star
35

SuperCLUE-Industry

中文原生工业测评基准
13
star
36

SuperCLUEgkzw

SuperCLUE高考作文机器自动阅卷系统
12
star
37

SuperCLUE-Code3

中文原生等级化代码能力测试基准
10
star
38

KGQA

Knowledge Graph based Question Answering benchmark.
10
star
39

SuperCLUE-ICabin

汽车智能座舱大模型测评基准
9
star
40

chatbotzh

This is a Chatbot designed for Chinese developers base on RASA. You could deploy your bot quickly with the help of this things.
Python
8
star
41

CLUEmotionAnalysis2020

CLUE Emotion Analysis Dataset 细粒度情感分析数据集
Python
7
star
42

SuperCLUE-Image

中文原生文生图测评基准
7
star
43

SuperCLUE-Fin

中文金融大模型测评基准,六大类二十五任务、等级化评价,国内模型获得A级
7
star
44

SuperCLUE-Long

中文原生长文本测评基准
5
star
45

SuperCLUE-V

中文原生多模态理解测评基准(测评方案)
3
star
46

2024h1

中文大模型基准测评2024上半年度报告,Report of LLMs in Chinese, First Half of 2024
1
star