• Stars
    star
    508
  • Rank 83,913 (Top 2 %)
  • Language
  • Created 10 months ago
  • Updated about 1 month ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

大模型理论基础

大模型理论基础

最新的更新内容请在Wiki学习:https://github.com/datawhalechina/so-large-lm/wiki

项目简介

  本项目旨在作为一个大规模预训练语言模型的教程,从数据准备、模型构建、训练策略到模型评估与改进,以及模型在安全、隐私、环境和法律道德方面的方面来提供开源知识。

  项目将以斯坦福大学大规模语言模型课程为基础,结合来自开源贡献者的补充和完善,以及对前沿大模型知识的及时更新,为读者提供较为全面而深入的理论知识和实践方法。通过对模型构建、训练、评估与改进等方面的系统性讲解,我们希望建立一个具有广泛参考价值的项目。

  我们的项目团队成员将分工负责各个章节的内容梳理和撰写,并预计在三个月内完成初始版本内容。随后,我们将持续根据社区贡献和反馈进行内容的更新和优化,以确保项目的持续发展和知识的时效性。我们期待通过这个项目,为大型语言模型研究领域贡献一份宝贵的资源,推动相关技术的快速发展和广泛应用。

立项理由

  自然语言处理(NLP)领域以及其他人工智能领域已经被大规模预训练模型深刻改变。这些模型构成了许多任务中最先进系统的基础,并在各行各业迅速展现出强大的实力。

  大模型在社会层面已经成为了一个热门话题,大众对此产生了浓厚兴趣。然而,目前关于这一领域的文章质量参差不齐。本教程旨在提供一套易于理解且理论丰富的大模型教程,让广大人群能够了解和学习。

  从业界角度来看,未来自然语言处理领域的初学者可能会接触到以大模型为核心的各种知识,而现有的自然语言处理教程尚缺乏大模型相关的学习资料。因此,我们从全面的角度为大家提供大模型的学习内容。

  此外,本教程借鉴了斯坦福大学的CS324课程旨在将优质且前沿的学术内容引入国内,为学习者提供更多资源。

项目受众

  1. 人工智能、自然语言处理和机器学习领域的研究者和从业者:该项目旨在为研究者和从业者提供大规模预训练语言模型的知识和技术,帮助他们更深入地了解当前领域的最新动态和研究进展。
  2. 学术界和产业界对大型语言模型感兴趣的人士:项目内容涵盖了大型语言模型的各个方面,从数据准备、模型构建到训练和评估,以及安全、隐私和环境影响等方面。这有助于拓宽受众在这一领域的知识面,并加深对大型语言模型的理解。
  3. 想要参与大规模语言模型开源项目的人士:本项目提供代码贡献和理论知识,降低受众在大规模预训练学习的门槛。
  4. 其余大型语言模型相关行业人员:项目内容还涉及大型语言模型的法律和道德考虑,如版权法、合理使用、公平性等方面的分享,这有助于相关行业从业者更好地了解大型语言模型的相关问题。

项目亮点

  1. 项目的及时性:当前大模型发展迅速,社会和学习者缺少较为全面和系统的大模型教程
  2. 项目可持续性:当前大模型发展还在初期阶段,对行业的渗透还未全面展开,因此随着大模型的发展,该项目可持续的为学习者提供帮助

项目规划

目录

  1. 引言
    • 项目目标:目前对大规模预训练语言模型的相关知识的重点讲解
    • 项目背景:GPT-3等大型语言模型的出现,以及相关领域研究的发展
  2. 大模型的能力
    • 模型适应转换:大模型预训练往下游任务迁移
    • 模型性能评估:基于多个任务对GPT-3模型进行评估和分析
  3. 模型架构
    • 模型结构:研究和实现RNN, Transformer等网络结构
    • Transformer各层细节:从位置信息编码到注意力机制
  4. 新的模型架构
    • 混合专家模型(MoE)
    • 基于检索的模型
  5. 大模型的数据
    • 数据收集:从公开数据集中获取训练和评估所需数据,如The Pile数据集
    • 数据预处理:数据清洗、分词等
  6. 模型训练
    • 目标函数:大模型的训练方法
    • 优化算法:模型训练所使用的优化算法
  7. 大模型之Adaptation
    • 讨论为什么需要Adaptation
    • 当前主流的Adaptation方法(Probing/微调/高效微调)
  8. 分布式训练
    • 为什么需要分布式训练
    • 常见的并行策略:数据并行、模型并行、流水线并行、混合并行
  9. 大模型的有害性-上
    • 模型性能差异:预训练或数据处理影响大模型性能
    • 社会偏见:模型表现出的显性的社会偏见
  10. 大模型的有害性-下
    • 模型有害信息:模型有毒信息的情况
    • 模型虚假信息:大模型的虚假信息情况
  11. 大模型法律
    • 新技术引发的司法挑战:司法随着新技术的出现而不断完善
    • 过去司法案例汇总:过去案例的汇总
  12. 环境影响
    • 了解大语言模型对环境的影响
    • 估算模型训练产生的排放量

负责人

各章节预估完成日期

整体教程开源内容发布第二版分为三个步骤:

  • Step 1: 基于原有第一版的内容内容进行整体的润色和优化【预计两个月结束】;
  • Step 2: 在上一步的基础上,加入代码模块增加内容的实用性;
  • Step 3: 对前沿的大模型内容进行补充。

项目负责人

陈安东 微信: andong---

More Repositories

1

pumpkin-book

《机器学习》(西瓜书)公式详解
22,983
star
2

leedl-tutorial

《李宏毅深度学习教程》(李宏毅老师推荐👍),PDF下载地址:https://github.com/datawhalechina/leedl-tutorial/releases
Jupyter Notebook
9,384
star
3

llm-cookbook

面向开发者的 LLM 入门教程,吴恩达大模型系列课程中文版
Jupyter Notebook
8,853
star
4

easy-rl

强化学习中文教程(蘑菇书🍄),在线阅读地址:https://datawhalechina.github.io/easy-rl/
Jupyter Notebook
8,032
star
5

joyful-pandas

pandas中文教程
Jupyter Notebook
4,304
star
6

competition-baseline

数据挖掘、计算机视觉、自然语言处理、推荐系统竞赛知识、代码、思路
Jupyter Notebook
3,978
star
7

fun-rec

推荐系统入门教程,在线阅读地址:https://datawhalechina.github.io/fun-rec/
Jupyter Notebook
3,304
star
8

hugging-llm

HuggingLLM, Hugging Future.
Jupyter Notebook
2,425
star
9

daily-interview

Datawhale成员整理的面经,内容包括机器学习,CV,NLP,推荐,开发等,欢迎大家star
HTML
2,258
star
10

team-learning

主要展示Datawhale的组队学习计划。
2,153
star
11

thorough-pytorch

PyTorch入门教程,在线阅读地址:https://datawhalechina.github.io/thorough-pytorch/
Jupyter Notebook
1,916
star
12

learn-nlp-with-transformers

we want to create a repo to illustrate usage of transformers in chinese
Shell
1,660
star
13

statistical-learning-method-solutions-manual

统计学习方法习题解答,在线阅读地址:https://datawhalechina.github.io/statistical-learning-method-solutions-manual
Jupyter Notebook
1,563
star
14

team-learning-data-mining

主要存储Datawhale组队学习中“数据挖掘/机器学习”方向的资料。
Jupyter Notebook
1,504
star
15

key-book

《机器学习理论导引》(宝箱书)的证明、案例、概念补充与参考文献讲解。
1,375
star
16

self-llm

《开源大模型食用指南》基于Linux环境快速部署开源大模型,更适合中国宝宝的部署教程
Jupyter Notebook
1,352
star
17

llm-universe

本项目是一个面向小白开发者的大模型应用开发教程,在线阅读地址:https://datawhalechina.github.io/llm-universe/
Jupyter Notebook
1,133
star
18

hands-on-data-analysis

动手学数据分析以项目为主线,知识点孕育其中,通过边学、边做、边引导来得到更好的学习效果
Jupyter Notebook
1,041
star
19

hugging-multi-agent

A tutorial based on MetaGPT to quickly help you understand the concept of agent and muti-agent and get started with coding development
CSS
917
star
20

team-learning-nlp

主要存储Datawhale组队学习中“自然语言处理”方向的资料。
Jupyter Notebook
827
star
21

team-learning-program

主要存储Datawhale组队学习中“编程、数据结构与算法”方向的资料。
Jupyter Notebook
803
star
22

dive-into-cv-pytorch

动手学CV-Pytorch版
Python
781
star
23

wonderful-sql

Follow me,从 0 到 1 掌握 SQL。
625
star
24

machine-learning-toy-code

《机器学习》(西瓜书)代码实战
Jupyter Notebook
520
star
25

leetcode-notes

🐳 LeetCode 算法笔记:面试、刷题、学算法。在线阅读地址:https://datawhalechina.github.io/leetcode-notes/
490
star
26

fantastic-matplotlib

Matplotlib中文教程,在线阅读地址:https://datawhalechina.github.io/fantastic-matplotlib/
Python
436
star
27

torch-rechub

A Lighting Pytorch Framework for Recommendation Models, Easy-to-use and Easy-to-extend.
Python
341
star
28

powerful-numpy

巨硬的NumPy
Jupyter Notebook
324
star
29

whale-quant

本项目为量化开源课程,可以帮助人们快速掌握量化金融知识以及使用Python进行量化开发的能力。
Jupyter Notebook
322
star
30

learn-python-the-smart-way

聪明方法学Python,简明且系统的 Python 入门教程。
Jupyter Notebook
301
star
31

team-learning-cv

主要存储Datawhale组队学习中“计算机视觉”方向的资料。
Jupyter Notebook
289
star
32

vced

VCED 可以通过你的文字描述来自动识别视频中相符合的片段进行视频剪辑。该项目基于跨模态搜索与向量检索技术搭建,通过前后端分离的模式,帮助你快速的接触新一代搜索技术。
Python
270
star
33

d2l-ai-solutions-manual

《动手学深度学习》习题解答,在线阅读地址如下:
Jupyter Notebook
249
star
34

juicy-bigdata

🎉🎉🐳 Datawhale大数据处理导论教程 | 大数据技术方向的开篇课程🎉🎉
Python
226
star
35

office-automation

python自动化办公
Jupyter Notebook
211
star
36

team-learning-sql

主要存储Datawhale组队学习中“SQL”方向的资料。
172
star
37

DOPMC

Datawhale 开源项目管理委员会(Datawhale Open-source Project Management Committee,简称DOPMC)
169
star
38

learn-python-the-smart-way-v2

聪明办法学Python,简明且系统的 Python 入门教程第二版。
Jupyter Notebook
142
star
39

ensemble-learning

Jupyter Notebook
124
star
40

smoothly-vslam

VSLAM开源基础教程,各章节练习代码
C++
122
star
41

joyrl

An easier PyTorch deep reinforcement learning library.
Python
121
star
42

free-excel

开源Excel教程。
CSS
120
star
43

faster-git

a chinese tutorial of git
113
star
44

unusual-deep-learning

水很深的深度学习
105
star
45

agent-tutorial

96
star
46

grape-book

图深度学习(葡萄书),在线阅读地址: https://datawhalechina.github.io/grape-book
HTML
96
star
47

undingable-optimization

顶不住的运筹优化
92
star
48

sweetalk-design-pattern

基于《大话设计模式》对设计原则和设计模式进行解读。
C++
79
star
49

hugging-sd

Hugging StableDiffusion, Hugging Future.
Jupyter Notebook
76
star
50

hands-dirty-nlp

本课程面对具有一定机器学习基础,但尚未入门的NLPer或经验尚浅的NLPer,尽力避免陷入繁琐枯燥的公式讲解中,力求用代码展示每个模型背后的设计思想,同时也会带大家梳理每个模块下的技术演变,做到既知树木也知森林。
Jupyter Notebook
73
star
51

sora-tutorial

69
star
52

joyrl-book

Jupyter Notebook
66
star
53

huawei-od-python

华为OD算法题解
Python
64
star
54

paper-chart-tutorial

《科研论文配图》组队学习
50
star
55

wow-plotly

高级可视化神器plotly的学习
Jupyter Notebook
49
star
56

time-series-learning

天池”AI Earth“气象海洋预测竞赛的Topline学习教程
Jupyter Notebook
48
star
57

go-talent

Go天才小队
Go
47
star
58

zishu

wow-fullstack,令人惊叹的全栈开发教程
Jupyter Notebook
46
star
59

whale-anno

Datawhale自研数据标注工具
Vue
43
star
60

openmmlab-tutorial

帮助新手快速入门、快速使用、习惯 OpenMMLab 开源库官方文档且能够自主上手实验,自由选择阅读更深层的知识。
Jupyter Notebook
42
star
61

rl-papers

rl-papers
38
star
62

whale-paper

Datawhale论文分享,阅读前沿论文,分享技术创新
35
star
63

whale-starry

繁星点点,光芒万丈
C++
34
star
64

team-learning-rl

主要存储Datawhale组队学习中“强化学习”方向的资料。
28
star
65

llms-from-scratch-cn

Jupyter Notebook
28
star
66

whale-web

Python
27
star
67

ML-FTTI

机器学习 - 从原理到实现
Python
26
star
68

aima-notes

人工智能:现代方法(第4版)笔记
24
star
69

awesome-compression

模型压缩的小白入门教程
23
star
70

magic-cv

Jupyter Notebook
20
star
71

llm-research

16
star
72

coggle

Coggle数据科学
15
star
73

hugging-audio

Hugging Face Audio Course中文版,帮助学习者快速入门音频模态
Jupyter Notebook
14
star
74

easy-grokking-deep-learning

Easy-Grokking-Deep-Learning,意为轻松摸索深度学习,英文缩写可简称为EGDL。
Python
11
star
75

leeml-notes

leeml-notes已更名为leedl-tutorial,请访问:https://github.com/datawhalechina/leedl-tutorial
10
star
76

datawhale-linklearner

datawhale linklearner 网站
TypeScript
9
star
77

sweetalk-data-structure

电子书阅读地址
8
star
78

hugging-rl

Robot Learning Algorithms
8
star
79

what-is-vs

5
star
80

HandPoseKeyPoints

5
star
81

design-and-analysis-of-algorithm

4
star
82

hello-net

4
star
83

fun-marl

4
star
84

easy-ros2arm

Robotic arm with machine vision and its os is ROS2.
C++
3
star
85

ai-club

Datawhale 高校联盟
3
star
86

camel-agent-tutorial

This is a tutorial based on the CAMEL framework, aimed at understanding how to build an Agent Society from the ground up!
3
star
87

obsession-with-ai

2
star
88

latex-template

Datawhale LaTex Template
TeX
2
star
89

udl-tutorial

2
star
90

llm-deploy

2
star
91

whale-share

1
star
92

sweettalk-django

Python
1
star
93

whale-governance

Datawhale 组织治理小组负责推动组织持续发展,包括组织架构、文化、制度等工作
1
star
94

start-deep-learning-on-graphs

start-deep-learning-on-graphs
1
star
95

move-as-experts

Imitation Learning and Offline Reinforcement Learning.
1
star
96

datawhale-homepage

datawhale 官网介绍页
CSS
1
star
97

caublazer

Python
1
star
98

leegenai-tutorial

1
star