• Stars
    star
    2,573
  • Rank 17,813 (Top 0.4 %)
  • Language
    Jupyter Notebook
  • License
    MIT License
  • Created almost 2 years ago
  • Updated 5 months ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

中文nlp解决方案(大模型、数据、模型、训练、推理)

zero to nlp

特点

  1. 🎯目标:基于pytorchtransformers做中文领域的nlp开箱即用的训练框架,提供全套的训练、微调模型(包括大模型、文本转向量、文本生成、多模态等模型)的解决方案;
  2. 💽数据
    • 从开源社区,整理了海量的训练数据,帮助用户可以快速上手;
    • 同时也开放训练数据模版,可以快速处理垂直领域数据;
    • 结合多线程、内存映射等更高效的数据处理方式,即使需要处理百GB规模的数据,也是轻而易举;
  3. 💻流程:每一个项目有完整的模型训练步骤,如:数据清洗、数据处理、模型构建、模型训练、模型部署、模型图解;
  4. 🔥模型:当前已经支持gpt2clipgpt-neoxdollyllamachatglm-6bVisionEncoderDecoderModel等多模态大模型;
  5. 🚀多卡串联:当前,多数的大模型的尺寸已经远远大于单个消费级显卡的显存,需要将多个显卡串联,才能训练大模型、才能部署大模型。因此对部分模型结构进行修改,实现了训练时推理时的多卡串联功能。

目录

模型训练

中文名称 文件夹名称 数据 数据清洗 大模型 模型部署 图解
中文文本分类 chinese_classifier ☑️
中文gpt2 chinese_gpt2 ☑️
中文clip chinese_clip ☑️
图像生成中文文本 VisionEncoderDecoderModel ☑️
vit核心源码介绍 vit model ☑️ ☑️ ☑️ ☑️
Thu-ChatGlm-6b simple_thu_chatglm6b ☑️
中文dolly_v2_3b dolly_v2_3b ☑️ ☑️
中文llama(作废) chinese_llama ☑️ ☑️
中文bloom chinese_bloom ☑️ ☑️
中文falcon(注意:falcon模型和bloom结构类似) chinese_bloom ☑️ ☑️
中文预训练模型bloom chinese_bloom_clm ☑️ ☑️
数据流程图解

我一直觉得,数据流程通过图解的形式表达出来,其实是最清楚的,因此我都会尽可能的把每一个任务的都图解出来。

文本分类数据图解

中文gpt2

中文clip

model

图像生成中文文本

model

vit 源码

分享数据

一直在整理开源数据,如果有需要,可以关注公众号统计学人,回复nlp数据即可。目前还在整理数据中

统计学人

More Repositories

1

tiny_python

tiny python project
Jupyter Notebook
154
star
2

DocumentSearch

基于sentence transformers和chatglm实现的文档搜索工具
Python
150
star
3

quick_sentence_transformers

sentence-transformers to onnx 让sbert模型推理效率更快
Python
145
star
4

vscode_debug_transformers

Python
106
star
5

WechatGroupRobot

微信群聊机器人,微信,chatgpt,python,自动化
Python
91
star
6

SentenceEmbedding

Jupyter Notebook
61
star
7

questionAnswerSystem

基于sentence-transformers实现文本转向量的机器人
Jupyter Notebook
45
star
8

TimeSeries

Jupyter Notebook
27
star
9

plot_data

这个是我画图的一些数据和代码还有结果
Jupyter Notebook
25
star
10

chinamap

Python
25
star
11

mamba4transformers

Python
12
star
12

nlpboss

Python
6
star
13

Rust4SenVec

convert sentence to vector by nlp transformers model in Rust
Jupyter Notebook
6
star
14

yuanzhoulvpi2017

personal info
5
star
15

countdown

Rust
4
star
16

newvennplot

Jupyter Notebook
4
star
17

r_practice

这个是我给一些人写的代码,保存一下,还有数据
R
3
star
18

getweather

我的第一个包,用来查询中国城市(包括县)的天气
R
3
star
19

getdata

Jupyter Notebook
3
star
20

master_shiny_CN

2
star
21

mytools

R
1
star
22

sklearn

自己从sklearn网上找到的,种类很多,如果是入门者,可以每天检查写这个代码两个以上,坚持写完,必有成效
Python
1
star
23

tiny_pytorch

从网上找到pytorch一些代码,然后自己抄写,并且修正那些代码,并且发布到这上面来
Python
1
star
24

R4pi

C++
1
star
25

raincloud_plot

use R create raincloud
HTML
1
star
26

tiny_cpp

C++
1
star
27

MakeTextLabel

Python
1
star
28

classdigits_inter

Interactive handwritten digit recognition
Python
1
star
29

tiny_tensorflow

准备筹集tensorflow代码,从入门到进阶
Python
1
star
30

dendrogram_maps

Jupyter Notebook
1
star
31

gongtongqujian

就是计算区间重合的最大数目
Python
1
star
32

down_issue

R
1
star