• Stars
    star
    139
  • Rank 261,418 (Top 6 %)
  • Language
  • Created over 1 year ago
  • Updated 3 months ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

SuperCLUE琅琊榜:中文通用大模型匿名对战评价基准

SuperCLUE琅琊榜

SuperCLUE琅琊榜:中文通用大模型匿名对战评价基准

我们展示了SuperCLUE琅琊榜,这是一个中文通用大模型对战评价基准,它以众包的方式提供匿名、随机的对战。在本文中,我们发布了初步的结果和基于Elo评级系统的排行榜,Elo评级是国际象棋和其他竞技游戏中广泛使用的评级系统。我们邀请整个社区加入这项工作,贡献新的模型,并通过提问和投票选出你最喜欢的答案来评估它们。

表格1:基于5.8K投票数据,使用Elo机制获得的16个模型的排名。你可以在琅琊榜上查看

图片1:一对一的投票

介绍Introduction

ChatGPT的巨大成功之后,国内外大量的通用大模被微调用于遵循指令。这些模型能够在回答用户的问题/提示时提供有价值的帮助。
典型的模型包括ChatGLM、MOSS、RWKV,基于LLaMA的Vicua、BELLE等。

尽管每周都会不断发布新的模型,但社区对这些模型的基准测评缺面临着一些挑战,特别是开放式问题的测试。
好的基准系统应该具备这些特性:需要有可扩展性,即可以支持大量的模型;可以对新增的模型进行快速的测试。
当前的一些中文通用大基准测试,大多基于学术与专业能力测试,虽然可以考察模型的专业能力,但并没有直接针对开放式问题的测试;
也可能不是针对生成式问题效果的直接测试,如考察模型在这个能力上理解层面的测试。

这里我们介绍了SuperCLUE琅琊榜,这是一个中文通用模型基准平台,以众包方式提供匿名随机对战。该平台采用Elo评级系统,
这是国际象棋和其他竞技游戏中广泛使用的评级系统。

为了收集数据,我们在5月19日使用了几个流行的可用于中文通用模型,包括开源模型。在琅琊榜,用户可以与两个匿名模型进行交互,
并投票选出哪一个更好。

数据搜集DataCollection

可以在www.SuperCLUEAI.com使用对战平台。当用户进入平台时,他们可以同时与两个匿名模型聊天,如图1所示。一旦提交投票,模型名称将被公布。
用户可以继续与两个新的随机选择的匿名模型重新开始一场新的对战。该平台记录所有用户交互。在我们的分析中,我们仅使用匿名模型匿名对战下的投票结果。
琅琊榜在5月19日启动,从那时起,我们已经收集了5.8k张有效的匿名选票。我们在这里做一个简短的总结。

图2:每种模型组合的对战次数。模型的匹配,总体上具有随机性;同时我们也将模型进行了分组,组内的模型具有比随机更高的对战机会。

两两对战胜率

 作为校准的基础,我们在这里还展示了对战中每个模型的成对获胜率。

图3: 模型A在所有非平局的A对B战斗中获胜的分数。

中文模型初步评价

TODO 

Elo评级系统

介绍一下Elo的原理

Elo评级系统是一种计算参赛者相对技能水平的方法,在竞技游戏和体育运动中被广泛采用。两名参赛者之间的评分差异可以作为比赛结果的预测因素。
Elo评级系统适用于我们的案例,因为我们有多个模型,并且我们在它们之间进行对战。如果玩家A的评分为Ra,玩家B的评分为Rb,
则玩家A获胜概率的确切公式为:

后续计划

我们的后续工作如下:
1)新增一些模型,扩大国内外模型的覆盖面
2)在限定范围内公布投票数据,以及进一步的数据分析情况
2)定时更新(如每月的频率更新)
4)提供不同任务类型的细粒度排名。

加入我们

 我们邀请整个社区加入这项基准测试工作,贡献您的模型,并为您认为能提供更好答案的匿名模型投票。
 您可以访问https://www.SuperCLUEAI.com投票选出更好的模型。如果你想在竞技场上看到一个特定的模型,
 你可以填写表格或提issue来帮助我们添加它。

链接

SuperCLUE琅琊榜:www.SuperCLUEAI.com

模型加入SuperCLUE琅琊榜: 在线表格-登记入口

More Repositories

1

CLUEDatasetSearch

搜索所有中文NLP数据集,附常用英文NLP数据集
Python
4,023
star
2

CLUE

中文语言理解测评基准 Chinese Language Understanding Evaluation Benchmark: datasets, baselines, pre-trained models, corpus and leaderboard
Python
3,934
star
3

SuperCLUE

SuperCLUE: 中文通用大模型综合性基准 | A Benchmark for Foundation Models in Chinese
2,908
star
4

CLUENER2020

CLUENER2020 中文细粒度命名实体识别 Fine Grained Named Entity Recognition
Python
1,440
star
5

CLUECorpus2020

Large-scale Pre-training Corpus for Chinese 100G 中文预训练语料
898
star
6

CLUEPretrainedModels

高质量中文预训练模型集合:最先进大模型、最快小模型、相似度专门模型
Python
795
star
7

FewCLUE

FewCLUE 小样本学习测评基准,中文版
Python
489
star
8

pCLUE

pCLUE: 1000000+多任务提示学习数据集
Jupyter Notebook
455
star
9

KgCLUE

KgCLUE: 大规模中文开源知识图谱问答
Python
422
star
10

SimCLUE

3000000+语义理解与匹配数据集。可用于无监督对比学习、半监督学习等构建中文领域效果最好的预训练模型
Python
271
star
11

CLGE

Chinese Language Generation Evaluation 中文生成任务基准测评
Python
246
star
12

DataCLUE

DataCLUE: 数据为中心的NLP基准和工具包
Python
144
star
13

ELECTRA

中文 预训练 ELECTRA 模型: 基于对抗学习 pretrain Chinese Model
140
star
14

OCNLI

OCNLI: 中文原版自然语言推理任务
Python
139
star
15

PyCLUE

Python toolkit for Chinese Language Understanding(CLUE) Evaluation benchmark
Python
128
star
16

SuperCLUE-Llama2-Chinese

Llama2开源模型中文版-全方位测评,基于SuperCLUE的OPEN基准 | Llama2 Chinese evaluation with SuperCLUE
125
star
17

SuperCLUE-Safety

SC-Safety: 中文大模型多轮对抗安全基准
93
star
18

DistilBert

DistilBERT for Chinese 海量中文预训练蒸馏bert模型
89
star
19

SuperCLUE-RAG

中文原生检索增强生成测评基准
79
star
20

SuperCLUE-Agent

SuperCLUE-Agent: 基于中文原生任务的Agent智能体核心能力测评基准
76
star
21

SuperCLUE-Open

中文通用大模型开放域多轮测评基准 | An Open Domain Benchmark for Foundation Models in Chinese
74
star
22

QBQTC

QBQTC: 大规模搜索匹配数据集
Python
67
star
23

CLUEWSC2020

CLUEWSC2020: WSC Winograd模式挑战中文版,中文指代消解任务
65
star
24

MobileQA

离线端阅读理解应用 QA for mobile, Android & iPhone
Python
60
star
25

modelfun

一站式自动化开源标注平台
Java
59
star
26

LightLM

高性能小模型测评 Shared Tasks in NLPCC 2020. Task 1 - Light Pre-Training Chinese Language Model for NLP Task
Python
57
star
27

ZeroCLUE

零样本学习测评基准,中文版
Python
54
star
28

SuperCLUE-Math6

SuperCLUE-Math6:新一代中文原生多轮多步数学推理数据集的探索之旅
Python
33
star
29

KgCLUEbench

benchmark of KgCLUE, with different models and methods
Python
27
star
30

SuperCLUE-Auto

汽车行业中文大模型测评基准,基于多轮开放式问题的细粒度评测
21
star
31

SuperCLUE-Role

SuperCLUE-Role中文原生角色扮演测评基准
18
star
32

SuperCLUE-Llama3-Chinese

Llama3开源模型中文版-全方位测评,基于SuperCLUE基准 | Llama3 Chinese Evaluation with SuperCLUE
17
star
33

LGEB

LGEB: Benchmark of Language Generation Evaluation
Python
16
star
34

SuperCLUE-Video

中文原生多层次文生视频测评基准
15
star
35

SuperCLUEgkzw

SuperCLUE高考作文机器自动阅卷系统
13
star
36

SuperCLUE-Industry

中文原生工业测评基准
11
star
37

KGQA

Knowledge Graph based Question Answering benchmark.
10
star
38

SuperCLUE-Code3

中文原生等级化代码能力测试基准
9
star
39

chatbotzh

This is a Chatbot designed for Chinese developers base on RASA. You could deploy your bot quickly with the help of this things.
Python
8
star
40

CLUEmotionAnalysis2020

CLUE Emotion Analysis Dataset 细粒度情感分析数据集
Python
7
star
41

SuperCLUE-Fin

中文金融大模型测评基准,六大类二十五任务、等级化评价,国内模型获得A级
7
star
42

SuperCLUE-Image

中文原生文生图测评基准
6
star
43

SuperCLUE-ICabin

汽车智能座舱大模型测评基准
5
star
44

SuperCLUE-Long

中文原生长文本测评基准
5
star