• Stars
    star
    2,972
  • Rank 15,227 (Top 0.3 %)
  • Language
    Python
  • Created almost 5 years ago
  • Updated about 1 year ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

GPT2 for Chinese chitchat/用于中文闲聊的GPT2模型(实现了DialoGPT的MMI思想)

GPT2 for Chinese chitchat

News

公众号【YeungNLP】

  • 2023.04.05:发布Firefly(流萤): 中文对话式大语言模型 ,开源1.1M中文多任务指令数据集,以及模型权重。详情见文章
  • 2023.04.02:发布LLMPruner: 大语言模型裁剪工具 ,分享裁剪方法及其裁剪后的模型权重。详情见文章
  • 2023.02.13:发布OFA-Chinese ,中文多模态统一预训练模型OFA在Image Caption任务上的应用。详情见文章
  • 2022.12.04: 发布CLIP-Chinese ,中文CLIP预训练模型。使用140万中文图文对数据进行预训练,在图文相似度、文本相似度、图片相似度任务上有不错的表现。详情见文章
  • 2022.03.30:发布ClipCap-Chinese ,一种基于CLIP模型的Image Caption模型。详情见文章
  • 2021.06.16:发布CPM中文文本生成项目 。可用于作文、小说、新闻、古诗等中文生成任务。详情见文章
  • 2021.05.26:新增50w、100w的多轮对话的原始数据与预处理数据。

项目描述

  • 本项目是基于GPT2的中文闲聊机器人,模型实现基于HuggingFace的transformers 。文章:
  • 本项目受 GPT2-Chinese 的启发,精读作者的代码,获益匪浅。
  • 在生成阶段,使用了Temperature、Top-k Sampling和Nucleus Sampling等,可参考论文The Curious Case of Neural Text Degeneration
  • 代码中给出了许多详细的中文注释,方便大家更好地理解代码
  • 本项目被微软的DialoGPT项目 引用 (为了简化生成方法,加快生成速度,删除了MMI的生成方法)

运行环境

python3.6、 transformers==4.2.0、pytorch==1.7.0

项目结构

  • data
    • train.txt:默认的原始训练集文件,存放闲聊语料
    • train.pkl:对原始训练语料进行tokenize之后的文件,存储一个list对象,list的每条数据表示一个多轮对话,表示一条训练数据
  • model:存放对话生成的模型
    • epoch40:经过40轮训练之后得到的模型
      • config.json:模型参数的配置文件
      • pytorch_model.bin:模型文件
  • vocab
    • vocab.txt:字典文件。默认的字典大小为13317,若需要使用自定义字典,需要将confog.json文件中的vocab_size字段设为相应的大小。
  • sample:存放人机闲聊生成的历史聊天记录
  • train.py:训练代码
  • interact.py:人机交互代码
  • preprocess.py:数据预处理代码

模型简介

模型结构

avatar

模型参数简介(详见模型的config.json文件)

  • initializer_range: 0.02
  • layer_norm_epsilon: 1e-05
  • n_ctx: 1024
  • n_embd: 768
  • n_head: 12
  • n_layer: 12
  • n_positions: 1024
  • vocab_size: 21128

训练思路

对每条训练数据进行拼接,然后将其输入到模型中,进行训练。

对于如下多轮闲聊训练数据,在训练模型时,将训练数据进行如下拼接:"[CLS]想看你的美照[SEP]亲我一口就给你看[SEP]我亲两口[SEP]讨厌人家拿小拳拳捶你胸口[SEP]"。然后将上述拼接结果作为模型的输入,让模型进行自回归训练。

想看你的美照
亲我一口就给你看
我亲两口
讨厌人家拿小拳拳捶你胸口

使用方法

Quick Start

模型分享中下载模型,将模型文件夹model_epoch40_50w放到model目录下,执行如下命令,进行对话

python interact.py --no_cuda --model_path model_epoch40_50w (使用cpu生成,速度相对较慢)
或
python interact.py --model_path model_epoch40_50w --device 0 (指定0号GPU进行生成,速度相对较快)

数据预处理

在项目根目录下创建data文件夹,将原始训练语料命名为train.txt,存放在该目录下。train.txt的格式如下,每段闲聊之间间隔一行,格式如下:

真想找你一起去看电影
突然很想你
我也很想你

想看你的美照
亲我一口就给你看
我亲两口
讨厌人家拿小拳拳捶你胸口

美女约嘛
开好房等你了
我来啦

运行preprocess.py,对data/train.txt对话语料进行tokenize,然后进行序列化保存到data/train.pkl。train.pkl中序列化的对象的类型为List[List],记录对话列表中,每个对话包含的token。

python preprocess.py --train_path data/train.txt --save_path data/train.pkl

训练模型

运行train.py,使用预处理后的数据,对模型进行自回归训练,模型保存在根目录下的model文件夹中。

在训练时,可以通过指定patience参数进行early stop。当patience=n时,若连续n个epoch,模型在验证集上的loss均没有下降,则进行early stop,停止训练。当patience=0时,不进行early stop。

代码中默认关闭了early stop,因为在实践中,early stop得到的模型的生成效果不一定会更好。

python train.py --epochs 40 --batch_size 8 --device 0,1 --train_path data/train.pkl

更多的训练参数介绍,可直接看train.py中的set_args()函数中的参数说明

人机交互

运行interact.py,使用训练好的模型,进行人机交互,输入Ctrl+Z结束对话之后,聊天记录将保存到sample目录下的sample.txt文件中。

python interact.py --no_cuda --model_path path_to_your_model --max_history_len 3(由于闲聊对话生成的内容长度不是很长,因此生成部分在CPU上跑速度也挺快的)

执行interact.py时,可以尝试通过调整topk、topp、repetition_penalty、max_history_len等参数,调整生成的效果。更多的参数介绍,可直接看interact.py的set_args()函数中的参数说明 如果要使用GPU进行生成,则不要调用--no_cuda参数,并且通过--device gpu_id来指定使用哪块GPU。

闲聊语料分享

中文闲聊语料 数据集地址 语料描述
常见中文闲聊 chinese_chatbot_corpus 包含小黄鸡语料、豆瓣语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、PTT八卦语料、青云语料等
50w中文闲聊语料 百度网盘【提取码:4g5e】GoogleDrive 包含50w个多轮对话的原始语料、预处理数据
100w中文闲聊语料 百度网盘【提取码:s908】GoogleDrive 包含100w个多轮对话的原始语料、预处理数据

中文闲聊语料的内容样例如下:

谢谢你所做的一切
你开心就好
开心
嗯因为你的心里只有学习
某某某,还有你
这个某某某用的好

你们宿舍都是这么厉害的人吗
眼睛特别搞笑这土也不好捏但就是觉得挺可爱
特别可爱啊

今天好点了吗?
一天比一天严重
吃药不管用,去打一针。别拖着

模型分享

模型 共享地址 模型描述
model_epoch40_50w 百度网盘【提取码:ju6m】GoogleDrive 使用50w多轮对话语料训练了40个epoch,loss降到2.0左右。

关注我们

生成样例

Sample 1:

  user :你好啊
chatbot:你好,请问您是?
  user :我是你的主人啊 
chatbot:你是狗吗?
  user :你才是狗
chatbot:你不是狗我是你的小主人
  user :你这个大笨蛋
chatbot:你大笨蛋,你是想挨打了
  user :你全家都是大笨蛋
chatbot:我是你爸爸
  user :算了,不跟你吵了,你在干嘛呢
chatbot:我在上班啊,你还没下班呢啊你
  user :我周末要做作业啊
chatbot:不是才交了吗,早晚做完啊
  user :好多作业啊,还没做完呢
chatbot:我在抄,我妈让我周五交,还有事
  user :你就不怕被你妈妈骂吗
chatbot:不怕
  user :你周末有去哪里玩吗
chatbot:没时间啊,忙得很啊
  user :忙着干嘛呢
chatbot:不知道啊,我周末没有作业,我想睡觉,然后还得找人

Sample 2:

  user :你好啊
chatbot:你好我好大家好
  user :你在干嘛呢
chatbot:你不上课啊
  user :今天是周末啊,笨蛋
chatbot:我在学校呢
  user :我也是,周末还要做作业
chatbot:我还没写呢我们都还没写
  user :周末你有去哪里玩吗
chatbot:没有去南京
  user :南京有什么好玩的啊
chatbot:我们没去南京
  user :你刚刚又说你去了南京,你是不是耍我啊
chatbot:我刚刚才到南京
  user :你好笨啊
chatbot:我没有
  user :你是大笨蛋
chatbot:你才是大笨蛋
  user :你全家都是大笨蛋
chatbot:你个傻冒
  user :你个智障
chatbot:哈哈哈

Sample 3:

  user :在干嘛
chatbot:睡觉
  user :这么早就睡觉啦
chatbot:嗯啊你也早点睡啊
  user :我再玩一会儿手机
chatbot:早点休息晚安
  user :拜拜啦
chatbot:晚安晚安
  user :多喝热水
chatbot:哈哈哈
  user :多喝热水
chatbot:好的咯

Sample 4:

  user :在吗
chatbot:在
  user :我不开心
chatbot:怎么啦
  user :最近好累啊
chatbot:是挺累的
  user :作业好多啊
chatbot:还好还好
  user :我觉得我快要挂科了
chatbot:我也是啊,但是我觉得我快熬出头了
  user :不说了,我还有好多作业没写
chatbot:我也是啊好多啊
  user :那先这样,下次再聊,再见了
chatbot:好哒

Sample 5:

  user :你去过广州吗
chatbot:去过呀,但是没有找到工作呢
  user :那你去过北京吗
chatbot:没有啊
  user :北京有什么好玩的
chatbot:没有你想象的那么好
  user :是吗,我还没过北京
chatbot:那里我也不怎么熟,我去过北京
  user :北京天安门呢
chatbot:没去过,不过可以去玩玩

Sample 6:

  user :你好
chatbot:你好
  user :在干嘛呢
chatbot:在想你呢
  user :好害羞啊
chatbot:害羞什么啊
  user :你这样夸我,我觉得不好意思呀
chatbot:我夸你你还不好意思呢
  user :是啊,哈哈哈
chatbot:你是不是在考验我
  user :你怎么会这样想呢
chatbot:我说我在夸你,这么客气,
  user :你有睡午觉吗
chatbot:有啊
  user :我现在有点困呢
chatbot:我也是
  user :等下还要去上课,好烦啊
chatbot:我们不用上课的呀

TODO

  • 多卡并行训练负载不均衡的问题

Reference

More Repositories

1

Firefly

Firefly: 大模型训练工具,支持训练Qwen2、Yi1.5、Phi-3、Llama3、Gemma、MiniCPM、Yi、Deepseek、Orion、Xverse、Mixtral-8x7B、Zephyr、Mistral、Baichuan2、Llma2、Llama、Qwen、Baichuan、ChatGLM2、InternLM、Ziya2、Vicuna、Bloom等大模型
Python
5,493
star
2

CPM

Easy-to-use CPM for Chinese text generation(基于CPM的中文文本生成)
Python
525
star
3

Firefly-LLaMA2-Chinese

Firefly中文LLaMA-2大模型,支持增量预训练Baichuan2、Llama2、Llama、Falcon、Qwen、Baichuan、InternLM、Bloom等大模型
Python
390
star
4

CLIP-Chinese

中文CLIP预训练模型
Python
374
star
5

QQMusicSpider

基于Scrapy的QQ音乐爬虫(QQ Music Spider),爬取歌曲信息、歌词、精彩评论等,并且分享了QQ音乐中排名前6400名的内地和港台歌手的49万+的音乐语料
Python
310
star
6

LLMPruner

Python
282
star
7

ClipCap-Chinese

基于ClipCap的看图说话Image Caption模型
Python
267
star
8

LEBERT-NER-Chinese

基于词汇信息融合的中文NER模型
Python
160
star
9

LongQLoRA

LongQLoRA: Extent Context Length of LLMs Efficiently
Python
154
star
10

SimCSE

SimCSE有监督与无监督实验复现
Python
138
star
11

OFA-Chinese

transformers结构的中文OFA模型
Python
118
star
12

PAMAE

使用Python复现SIGKDD2017的PAMAE算法(并行k-medoids算法)/The Python implementation of SIGKDD 2017's PAMAE algorithm (parallel k-medoids algorithm)
Python
33
star
13

TankBattle

基于Netty的联机版坦克大战
Java
17
star
14

Shopee-Price-Match-Guarantee

对比学习 虾皮同款商品匹配
Python
13
star