• Stars
    star
    277
  • Rank 148,875 (Top 3 %)
  • Language
    Python
  • Created almost 3 years ago
  • Updated about 2 years ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

3000000+语义理解与匹配数据集。可用于无监督对比学习、半监督学习等构建中文领域效果最好的预训练模型

SimCLUE:3000000+中文语义理解与匹配数据集

You can get the english version of README.

简介

提供一个大规模语义数据集;可用于语义理解、语义相似度、召回与排序等检索场景等;作为通用语义数据集,用于训练中文领域基础语义模型。 可用于无监督对比学习、半监督学习、Prompt Learning等构建中文领域效果最好的预训练模型。

整合了中文领域绝大多数可用的开源的语义相似度和自然语言推理的数据集,并重新做了数据拆分和整理。

数据集与数据量
训练集(train_rank.json),三列,可用于排序模型:        389,370
训练集(train_pair.json),句子对,用于分类或召回:      2,678,728
验证集(dev.json),用于验证:                           33,617
测试集(test_public.json),用于内部测试:                28,031
语料库(corpus.json),可用于无监督对比学习:              2,288,523
正样本训练集(train_pair_postive.json),正样本句子对:  775,593

其中,train_pair_postive.json源于train_pair.json,可用于批次内负采样 (in-batch negatives)形式的模型训练
示例数据集
示例(train_rank.json):
{"query": "胡子长得太快怎么办?", "title": "胡子长得快怎么办?", "neg_title": "怎样使胡子不浓密!"}
{"query": "在香港哪里买手表好", "title": "香港买手表哪里好", "neg_title": "在杭州手机到哪里买"}
{"query": "全职妈妈在家怎么赚钱?", "title": "全职妈妈在家上网做什么工作赚钱", "neg_title": "怎样在家挣钱?"}
{"query": "她是一个非常慷慨的女人,拥有自己的一大笔财产。", "title": "她有很多钱,但她是个慷慨的女人。",
                                                     "neg_title": "百万富翁是由一个女人经营的。"}
{"query": "明天多少度啊", "title": "明天气温多少度啊", "neg_title": "沈阳多少度"}

示例(train_pair.json):
{"sentence1": "化妆水什么牌子的比较好?", "sentence2": "什么牌子的化妆水比较好呢?", "label": "1"}
{"sentence1": "怀孕能吃圆葱吗", "sentence2": "怀孕能吃甲鱼吗", "label": "0"}
{"sentence1": "两个人穿着工作服,正看着墙上插着的一根管子。", "sentence2": "两个人看着一根管子。", "label": "1"}


示例(dev/test.json):
{"sentence1": "我没整懂啊", "sentence2": "没整明白", "label": "1"}
{"sentence1": "北京特产什么茶", "sentence2": "北京特产是什么?", "label": "0"}

示例(corpus.json):
我还有几天过生日
不就是这么回事吗?
女子撑竿跳高距离田径场不到75英里。
杨幂胡歌到底是什么关系啊
凡尼亚躺在席子底下一动不动。
一群人走在一座雾蒙蒙的山脚下。
花呗于期还款会怎样

示例(train_pair_postive.json):
{"query": "很成功,我见过真正", "title": "事情完成得很圆满。"}
{"query": "你在干什么?小波", "title": "小波在不在,你在不在"}
{"query": "以后我就是你主人知道吗", "title": "听清以后我就是你主人了晓得不"}

在datasets目录下可以看到每个文件的前1万个数据,其中dev和test_public为全量。

下载链接:SimCLUE数据集

预训练模型

使用simclue(260万训练集)在sentence-bert(distiluse-base-multilingual-cased-v1)上训练过的模型

下载链接:sentencebert_simclue

triclue_small数据集介绍

数据量:train(8313)/dev(1037)/test(1359)

相对于规模较大的SimCLUE数据集,此数据集较小,可认为是train_rank的一个类似的小型数据集。

有三个句子sentence_0,sentence_1,sentence_2。当标签为1的时候那么sentence_0和sentence_1语义更近,;当标签为2的时候,sentence_0和sentence_2语义更近。

例子:
{"id": 3, "sentence_0": "性格注定人的一生吗?", "sentence_1": "人生下来就决定命运了嘛", "sentence_2": "性格决定人生吗?", "label": 2}
{"id": 5, "sentence_0": "苹果手机信号不好", "sentence_1": "安卓手机信号很好", "sentence_2": "苹果手机信号不好…", "label": 2}
{"id": 6, "sentence_0": "广州现在天气穿什么", "sentence_1": "现在广州什么天气", "sentence_2": "现在的广州天气要穿什么", "label": 2}
{"id": 7, "sentence_0": "什么海鲜好吃?", "sentence_1": "什么海鲜好吃啊", "sentence_2": "什么奶茶好喝?", "label": 1}
{"id": 8, "sentence_0": "议论文要怎么写", "sentence_1": "怎样写好议论文", "sentence_2": "说明文要怎么写", "label": 1}

效果对比

SimCLUE有什么用? 可以使用SimCLUE进行对比学习或作为通用数据训练模型,使得语义理解或搜索等相关场景模型具有较好的基础,并最终促进业务场景效果提升。

召回场景:语义检索场景,使用train_pair.json训练后,再使用业务数据训练,相对于直接业务训练,效果提升5个点(84%--->89%)。

排序场景:同一个语义检索场景,在召回基础上,进一步使用train_rank.json训练后,再使用业务排序数据训练模型,效果进一步提升2个点(92%--->94%)

整合的数据集列表

整合了以上9个数据集,如有引用请见源数据集地址;这些项目的示例的介绍也可以参考CSTS

需要做的工作:

请报告你的实验效果,包括各种形式的无监督、半监督或业务学习上的效果对比,邮件到:[email protected]

交流与合作

 提交你的issue;加QQ群(群号:836811304);或加入SimCLUE微信群:

相关参考或阅读:

1、中文自然语言推理与语义相似度数据集

2、SimCSE: Simple Contrastive Learning of Sentence Embeddings

3、手把手搭建一个语义检索系统(PaddleNLP)

4、R-Drop:又是Dropout两次!这次它做到了有监督任务的SOTA

5、 超越SimCSE两个多点,Prompt+对比学习的文本表示新SOTA

More Repositories

1

CLUEDatasetSearch

搜索所有中文NLP数据集,附常用英文NLP数据集
Python
4,133
star
2

CLUE

中文语言理解测评基准 Chinese Language Understanding Evaluation Benchmark: datasets, baselines, pre-trained models, corpus and leaderboard
Python
3,983
star
3

SuperCLUE

SuperCLUE: 中文通用大模型综合性基准 | A Benchmark for Foundation Models in Chinese
2,974
star
4

CLUENER2020

CLUENER2020 中文细粒度命名实体识别 Fine Grained Named Entity Recognition
Python
1,441
star
5

CLUECorpus2020

Large-scale Pre-training Corpus for Chinese 100G 中文预训练语料
919
star
6

CLUEPretrainedModels

高质量中文预训练模型集合:最先进大模型、最快小模型、相似度专门模型
Python
803
star
7

FewCLUE

FewCLUE 小样本学习测评基准,中文版
Python
492
star
8

pCLUE

pCLUE: 1000000+多任务提示学习数据集
Jupyter Notebook
467
star
9

KgCLUE

KgCLUE: 大规模中文开源知识图谱问答
Python
425
star
10

CLGE

Chinese Language Generation Evaluation 中文生成任务基准测评
Python
246
star
11

OCNLI

OCNLI: 中文原版自然语言推理任务
Python
145
star
12

DataCLUE

DataCLUE: 数据为中心的NLP基准和工具包
Python
144
star
13

SuperCLUElyb

SuperCLUE琅琊榜:中文通用大模型匿名对战评价基准
141
star
14

ELECTRA

中文 预训练 ELECTRA 模型: 基于对抗学习 pretrain Chinese Model
140
star
15

PyCLUE

Python toolkit for Chinese Language Understanding(CLUE) Evaluation benchmark
Python
128
star
16

SuperCLUE-Llama2-Chinese

Llama2开源模型中文版-全方位测评,基于SuperCLUE的OPEN基准 | Llama2 Chinese evaluation with SuperCLUE
127
star
17

SuperCLUE-Safety

SC-Safety: 中文大模型多轮对抗安全基准
100
star
18

SuperCLUE-RAG

中文原生检索增强生成测评基准
94
star
19

DistilBert

DistilBERT for Chinese 海量中文预训练蒸馏bert模型
89
star
20

SuperCLUE-Agent

SuperCLUE-Agent: 基于中文原生任务的Agent智能体核心能力测评基准
78
star
21

SuperCLUE-Open

中文通用大模型开放域多轮测评基准 | An Open Domain Benchmark for Foundation Models in Chinese
76
star
22

QBQTC

QBQTC: 大规模搜索匹配数据集
Python
69
star
23

CLUEWSC2020

CLUEWSC2020: WSC Winograd模式挑战中文版,中文指代消解任务
67
star
24

modelfun

一站式自动化开源标注平台
Java
62
star
25

MobileQA

离线端阅读理解应用 QA for mobile, Android & iPhone
Python
60
star
26

LightLM

高性能小模型测评 Shared Tasks in NLPCC 2020. Task 1 - Light Pre-Training Chinese Language Model for NLP Task
Python
57
star
27

ZeroCLUE

零样本学习测评基准,中文版
Python
54
star
28

SuperCLUE-Math6

SuperCLUE-Math6:新一代中文原生多轮多步数学推理数据集的探索之旅
Python
40
star
29

SuperCLUE-Auto

汽车行业中文大模型测评基准,基于多轮开放式问题的细粒度评测
28
star
30

KgCLUEbench

benchmark of KgCLUE, with different models and methods
Python
26
star
31

SuperCLUE-Role

SuperCLUE-Role中文原生角色扮演测评基准
21
star
32

SuperCLUE-Llama3-Chinese

Llama3开源模型中文版-全方位测评,基于SuperCLUE基准 | Llama3 Chinese Evaluation with SuperCLUE
17
star
33

SuperCLUE-Video

中文原生多层次文生视频测评基准
16
star
34

LGEB

LGEB: Benchmark of Language Generation Evaluation
Python
16
star
35

SuperCLUE-Industry

中文原生工业测评基准
13
star
36

SuperCLUEgkzw

SuperCLUE高考作文机器自动阅卷系统
12
star
37

SuperCLUE-Code3

中文原生等级化代码能力测试基准
10
star
38

KGQA

Knowledge Graph based Question Answering benchmark.
10
star
39

SuperCLUE-ICabin

汽车智能座舱大模型测评基准
9
star
40

chatbotzh

This is a Chatbot designed for Chinese developers base on RASA. You could deploy your bot quickly with the help of this things.
Python
8
star
41

CLUEmotionAnalysis2020

CLUE Emotion Analysis Dataset 细粒度情感分析数据集
Python
7
star
42

SuperCLUE-Image

中文原生文生图测评基准
7
star
43

SuperCLUE-Fin

中文金融大模型测评基准,六大类二十五任务、等级化评价,国内模型获得A级
7
star
44

SuperCLUE-Long

中文原生长文本测评基准
5
star
45

SuperCLUE-V

中文原生多模态理解测评基准(测评方案)
3
star
46

2024h1

中文大模型基准测评2024上半年度报告,Report of LLMs in Chinese, First Half of 2024
1
star