• Stars
    star
    125
  • Rank 284,669 (Top 6 %)
  • Language
  • Created about 1 year ago
  • Updated about 1 year ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

Llama2开源模型中文版-全方位测评,基于SuperCLUE的OPEN基准 | Llama2 Chinese evaluation with SuperCLUE

SuperCLUE-Llama2-Chinese

Llama2中文版开源模型全方位测评,基于SuperCLUE基准

概要

Facebook母公司Meta发布了开源可商用的大模型Llama2,该开源模型受到广泛关注。Llama2为初创企业和其他企业提供了一个强大的免费选择。新版本Llama2将训练数据量增加了 40%,它包括70亿、130亿和700亿参数量的多个版本,此外还有对应的聊天机器人调优版本Llama 2-Chat。最近国内外大厂包括微软、阿里云等也宣布支持Llama2。开源社区和大量机构、个人,也纷纷着手基于Llama2构建中文版本及其应用。

基于Llama2的中文版本的效果怎么样?当前开源版本做到什么程度了;与国内代表性模型相比,特别是开源模型(baichuan-13b, chatglm2-6b)的相对表现如何;在一些比较关注的能力上,如生成与创作、逻辑推理、代码生成,表现怎么样呢?

基于SuperCLUE开放式与多轮测评基准(OPEN),即针对开放式的问题并结合多轮对话能力的测试,我们首次对Llama2中文版模型进行了定量和定性评估。通过前者可以看到模型的相对其他模型的表现,以及十大能力维度上的表现;而后者从一些典型示例中看到模型的表现(包括相对成熟和不足的能力)。

update

[2023-08-02] 添加 Chinese-Alpaca-2-7B

SuperCLUE开放式多轮测评-Llama2中文开源模型排行榜

排名 模型 机构 OPEN分数 描述
- GPT-4 OpenAI 94.64 OpenAI发布的公认最强模型
- Claude-instant-v1 Authropic 69.51 OpenAI竞品的基础版本
- Baichuan-13B-chat 百川智能 65.28 继7B之后的更大持续的模型,在高质量的语料上训练了 1.4 万亿 tokens,使用 ALiBi 位置编码,上下文窗口长度为 4096
- ChatGLM2-6B 清华&智谱AI 36.50 第二代版本, 1.4T 中英标识符的预训练与人类偏好对齐训练, 结合FlashAttention 在8K上训练,更高效的推理
1 openbuddy-llama2-13b OpenBuddy 35.12 多语言对话型人工智能,支持中文、英文、日文、韩文、法文、德文以及更多语言;增强词汇量和对常见CJK字符的支持。
2 Llama-2-13B-chat Meta 27.05 Meta发布的原版Llama-2,主要支持英文,中文支持较弱
3 Llama2-Chinese-13b-Chat Llama2中文社区(FlagAlpha) 26.51 采用中文指令集,对Llama-2进行LoRA微调,使其具备较强的中文对话能力。
4 Chinese-Alpaca-2-7B ymcui 14.43 扩充并优化了中文词表,使用了大规模中文数据进行增量预训练(120G),基于FlashAttention-2的高效注意力训练,相关模型支持4K上下文并可通过NTK方法最高扩展至18K+。
5 firefly_llama2_13b YeungNLP 12.54 采用百万指令数据,对Llama-2进行QLoRA微调
6 Llama2-Chinese-7b-Chat Llama2中文社区(FlagAlpha) 12.50 采用中文指令集,对Llama-2进行LoRA微调,使其具备较强的中文对话能力。
7 yayi-13b-llama2 中科闻歌(wenge-research,中科院自动化所孵化) 8.78 在百万级人工构造的高质量领域数据上进行指令微调得到,训练数据覆盖媒体宣传、舆情分析、公共安全、金融风控、城市治理等五大领域,上百种自然语言指令任务。

计算方法: 针对一个特定的开放式问题,利用超级模型作为评判官,计算被评估的模型相对于基线模型(如gpt-3.5)的胜、平局或失败的个数; 胜和率,是模型的胜率加上平局率之和,即(win+tie)/(win+tie+loss)*100。win,即胜,tie即平,loss即负。

SuperCLUE开放式多轮测评-十大能力,以Llama2中文版为例

排名 模型 胜和率 语义理解与抽取 闲聊 上下文对话 角色扮演 知识与百科 生成与创作 代码 逻辑与推理 计算 安全
- gpt-4 94.64 80.00 97.30 93.18 100.00 87.76 100.00 97.92 100.00 100.00 95.12
- Baichuan-13B-Chat 65.28 45.00 88.33 78.33 91.67 55.00 91.67 25.00 50.88 35.71 81.67
- ChatGLM2-6B 36.50 33.33 38.33 36.67 41.67 20.00 40.00 21.67 55.00 45.00 33.33
1 openbuddy_llama2_13b 35.12 33.33 40.00 23.33 20.00 23.33 46.67 33.33 58.62 50.00 23.33
2 Llama-2-13B-chat 27.05 43.33 35.00 27.12 11.67 15.00 46.67 6.67 35.00 26.67 23.33
3 FlagAlpha-Llama2-13b-Chat 26.51 33.33 36.67 36.67 24.14 10.00 50.00 6.67 41.38 13.33 13.33
4 Chinese-Alpaca-2-7B 14.43 20.00 6.67 20.00 10.34 6.67 3.33 10.00 37.93 30.00 0.00
5 firefly_llama2_13b 12.54 16.67 6.90 3.57 3.33 0.00 6.67 16.67 46.67 24.14 0.00
6 FlagAlpha-Llama2-7b-Chat 12.50 17.24 20.69 16.67 3.33 6.67 13.33 3.33 26.67 10.00 7.14
7 yayi_13b_llama2 8.78 16.67 0.00 10.00 3.33 3.45 3.33 10.34 20.00 20.00 0.00
胜和率,是模型的胜率加上平局率之和,即(win+tie)/(win+tie+loss)*100。win,即胜,tie即平,loss即负。

在SuperCLUE开放式多轮测评-十大能力成绩评估中,我们发现Llama2中文模型在多数任务上效果总体效果还比较一般,多数能力的平均分离及格线都有比较大的差距。

定性分析

1)基础能力的例子

生成与创作

生成与创作,比如给定一个话题、一个写作任务来创作一段文字对于LLMs而言是相对比较容易的任务。 我们发现作为中文llama-2微调模型中的佼佼者, OpenBuddy生成的内容在结构性、丰富度上距离百川13b仍有不小的差距,并且openbuddy的形容过于宽泛而缺少具体例子, 有些词汇使用的也不太合适,比如用敏锐描述幽默感便有些不恰当。

语义理解与抽取

openbuddy能精确地理解用户的意图完成任务,但是从返回的内容本身以及格式上来说openbuddy输出的内容不如百川的好。

2)上下文能力的例子

在两轮对话的测试中,两个模型都能正确的完成任务。 在我们给出的示例中,openbuddy在第一轮的回答中给出的建议不如百川13b给出的建议充分,但两者的回答结构都非常优秀,让用户能有不错的体验。在第二轮对话中,虽然openbuddy修改了自己的回答,但是相比百川,其修改的幅度较小,很大比例是照搬上一轮的回答。

3)复杂任务(逻辑推理、代码生成、思维链路等)的例子

代码生成

代码,属于百川和openbuddy都不擅长的领域。和我们在百川测评推文中提到的一样,在我们给出的示例中,百川虽然能完成任务,但是给出的代码完全没考虑到非整数元素不需要逆转。 至于openbuddy,其虽然理解了用户仅将整数逆转的需求,但是给出的代码仅仅是把原列表中的整数按顺序放入新列表返回,并且给出的示例也和其给出的代码的实际效果不一致。

回顾我们上一篇的推文,可以发现Llama-2-13B-chat本身也会出现给出的代码与给出的代码用例不一致的情况。

逻辑推理

逻辑推理,同样属于百川和openbuddy都不擅长的领域。两者对问题的回答都是错误的。其中openbuddy的回答更显混乱一些,不仅没能正确理解问题,而且出现了许多非常初等的计算错误,比如4-2-4=0这种错误回答。两个模型都在回答时搞错了卡牌的总数,而我们在问题中是明确指出总共有十张卡牌的。 正确答案是4张绿色背景卡牌

回顾Llama-2-13B-chat可以看到,Llama-2-13B-chat同样无法给出正确答案。

当前Llama2开源中文版如何实现的?

  1. 指令微调:根据已经开源的版本看,目前主要是基于Llama2进行指令微调。
  2. 高效微调:目前普遍采用高效微调技术(如LoRA/QLoRA) 来微调大模型(如FlagAlpha, firefly_llama2_13b等)。 这类技术上具备在单张GPU上微调大型语言模型的能力。LoRa为LLM的每一层添加了少量的可训练参数(适配器),并冻结了所有原始参数。 这样对于微调,只需要更新适配器权重,这可以显著减少内存占用;QLoRA通过更高的量化(4-bit)和更多的可微调参数等进行改进。
  3. 中文词汇表:部分模型(如openbuddy-llama2-13b)改进或扩充词汇表,实现中文上更好的支持。
  4. 微调数据:使用百万微调数据进行微调,开源或构造特定领域数据(yayi)

初步结论

  1. 整体质量:基于SuperCLUE的OPEN基准,当前处于Llama2中文版的初级阶段,总体上模型质量参差不齐。 在本次评估的5个模型中,在OPEN基准上有3个模型效果远远小于Llama2原版的效果(10多分 vs 27分)
  2. 存在不错模型:有部分模型取得不错的效果(如OpenBuddy),效果与ChatGLM2-6B接近(35.12 VS 36.50);但与Baichuan-13B-Chat相比还有明显差距(35.12 VS 65.18)
  3. 与先进模型差距大:开源Llama2中文模型中,OpenBuddy与GPT3.5对战的胜率最高,但仅为12%,要达到接近GPT3.5的效果(胜率提升至33%),还有很长的路要走。
  4. 部分任务已经有效果:任务维度上,一些模型(openbuddy,FlagAlpha)具有还不错的生成与创作能力;并且在多种任务上都可以生成较长的回复,有些结构比较完整。

评估的不足与局限性

  1. 它是一个自动化的模型能力测评,没有人类的主观因素;虽然加州伯克利大学/斯坦福大学的相关研究表明(见延伸阅读), 自动化测评具有与人类评估的高度一致性(相关系数0.8-0.9),但进一步的分析还可以包括人类对模型的评估;
  2. 评估的能力主要是基于SuperCLUE的十大基础能力,即使具有较高的代表性,但并不能保证覆盖了所有能力的评估。
  3. 当前各个大模型厂商在快速迭代中,虽然我们报告的数字是最新的(7月中旬),但各个厂商的快速迭代可能会导致后续相对表现的进一步变化。
  4. 在本文中,我们没有测试一些其他但有用的维度。比如,我们没有测试模型的性能问题(速度),也还没有测试模型的支持的有效的输入长度。后续可能会进行专门的测试。

延伸阅读

  1. SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark,
  2. SuperCLUE-OPEN基准:中文通用大模型开放式与多轮测评基准(7月)
  3. LMSYS文章:Chatbot Arena Leaderboard Week 8: Introducing MT-Bench and Vicuna-33B
  4. 相关项目:Alpaca_Eval: A validated automatic evaluator for instruction-following language models

讨论与交流群

SuperCLUE榜单大模型评测申请:https://wj.qq.com/s2/12305633/a73d/

模型内测需求收集:https://wj.qq.com/s2/12307825/2ae0/

引用

如果使用本项目的,请引用本项目。

@misc{SuperCLUE,
  author = {Liang Xu, Anqi Li, Lei Zhu, Hang Xue, Changtai Zhu, Kangkang Zhao, Haonan He, Xuanwei Zhang, Qiyue Kang, Zhenzhong Lan},
  title = {SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark},
  year = {2023},
  publisher = {arxiv},
  howpublished = {\url{https://arxiv.org/abs/2307.15020}},
}

More Repositories

1

CLUEDatasetSearch

搜索所有中文NLP数据集,附常用英文NLP数据集
Python
4,023
star
2

CLUE

中文语言理解测评基准 Chinese Language Understanding Evaluation Benchmark: datasets, baselines, pre-trained models, corpus and leaderboard
Python
3,934
star
3

SuperCLUE

SuperCLUE: 中文通用大模型综合性基准 | A Benchmark for Foundation Models in Chinese
2,908
star
4

CLUENER2020

CLUENER2020 中文细粒度命名实体识别 Fine Grained Named Entity Recognition
Python
1,440
star
5

CLUECorpus2020

Large-scale Pre-training Corpus for Chinese 100G 中文预训练语料
898
star
6

CLUEPretrainedModels

高质量中文预训练模型集合:最先进大模型、最快小模型、相似度专门模型
Python
795
star
7

FewCLUE

FewCLUE 小样本学习测评基准,中文版
Python
489
star
8

pCLUE

pCLUE: 1000000+多任务提示学习数据集
Jupyter Notebook
455
star
9

KgCLUE

KgCLUE: 大规模中文开源知识图谱问答
Python
422
star
10

SimCLUE

3000000+语义理解与匹配数据集。可用于无监督对比学习、半监督学习等构建中文领域效果最好的预训练模型
Python
271
star
11

CLGE

Chinese Language Generation Evaluation 中文生成任务基准测评
Python
246
star
12

DataCLUE

DataCLUE: 数据为中心的NLP基准和工具包
Python
144
star
13

ELECTRA

中文 预训练 ELECTRA 模型: 基于对抗学习 pretrain Chinese Model
140
star
14

OCNLI

OCNLI: 中文原版自然语言推理任务
Python
139
star
15

SuperCLUElyb

SuperCLUE琅琊榜:中文通用大模型匿名对战评价基准
139
star
16

PyCLUE

Python toolkit for Chinese Language Understanding(CLUE) Evaluation benchmark
Python
128
star
17

SuperCLUE-Safety

SC-Safety: 中文大模型多轮对抗安全基准
93
star
18

DistilBert

DistilBERT for Chinese 海量中文预训练蒸馏bert模型
89
star
19

SuperCLUE-RAG

中文原生检索增强生成测评基准
79
star
20

SuperCLUE-Agent

SuperCLUE-Agent: 基于中文原生任务的Agent智能体核心能力测评基准
76
star
21

SuperCLUE-Open

中文通用大模型开放域多轮测评基准 | An Open Domain Benchmark for Foundation Models in Chinese
74
star
22

QBQTC

QBQTC: 大规模搜索匹配数据集
Python
67
star
23

CLUEWSC2020

CLUEWSC2020: WSC Winograd模式挑战中文版,中文指代消解任务
65
star
24

MobileQA

离线端阅读理解应用 QA for mobile, Android & iPhone
Python
60
star
25

modelfun

一站式自动化开源标注平台
Java
59
star
26

LightLM

高性能小模型测评 Shared Tasks in NLPCC 2020. Task 1 - Light Pre-Training Chinese Language Model for NLP Task
Python
57
star
27

ZeroCLUE

零样本学习测评基准,中文版
Python
54
star
28

SuperCLUE-Math6

SuperCLUE-Math6:新一代中文原生多轮多步数学推理数据集的探索之旅
Python
33
star
29

KgCLUEbench

benchmark of KgCLUE, with different models and methods
Python
27
star
30

SuperCLUE-Auto

汽车行业中文大模型测评基准,基于多轮开放式问题的细粒度评测
21
star
31

SuperCLUE-Role

SuperCLUE-Role中文原生角色扮演测评基准
18
star
32

SuperCLUE-Llama3-Chinese

Llama3开源模型中文版-全方位测评,基于SuperCLUE基准 | Llama3 Chinese Evaluation with SuperCLUE
17
star
33

LGEB

LGEB: Benchmark of Language Generation Evaluation
Python
16
star
34

SuperCLUE-Video

中文原生多层次文生视频测评基准
15
star
35

SuperCLUEgkzw

SuperCLUE高考作文机器自动阅卷系统
13
star
36

SuperCLUE-Industry

中文原生工业测评基准
11
star
37

KGQA

Knowledge Graph based Question Answering benchmark.
10
star
38

SuperCLUE-Code3

中文原生等级化代码能力测试基准
9
star
39

chatbotzh

This is a Chatbot designed for Chinese developers base on RASA. You could deploy your bot quickly with the help of this things.
Python
8
star
40

CLUEmotionAnalysis2020

CLUE Emotion Analysis Dataset 细粒度情感分析数据集
Python
7
star
41

SuperCLUE-Fin

中文金融大模型测评基准,六大类二十五任务、等级化评价,国内模型获得A级
7
star
42

SuperCLUE-Image

中文原生文生图测评基准
6
star
43

SuperCLUE-ICabin

汽车智能座舱大模型测评基准
5
star
44

SuperCLUE-Long

中文原生长文本测评基准
5
star