深度学习论文精读

录制完成的论文

日期	标题	时长
3/30/23	GPT-4	1:20:38
3/23/23	大模型时代下做科研的四个思路	1:06:29
3/10/23	Anthropic LLM	1:01:51
1/20/23	Helm 全面语言模型评测	1:23:37
1/11/23	多模态论文串讲·下	1:03:29
12/29/22	Instruct GPT	1:07:10
12/19/22	Neural Corpus Indexer 文档检索	55:47
12/12/22	多模态论文串讲·上	1:12:27
11/14/22	OpenAI Whisper 精读	1:12:16
11/07/22	在讲 OpenAI Whisper 前先做了一个剪视频小工具	23:39
10/23/22	Chain of Thought 论文、代码和资源	33:21
9/17/22	CLIP 改进工作串讲（下）	1:04:26
9/2/22	CLIP 改进工作串讲（上）	1:14:43
7/29/22	ViLT 论文精读	1:03:26
7/22/22	理由、论据和担保【研究的艺术·四】	44:14
7/15/22	如何讲好故事、故事里的论点【研究的艺术·三】	43:56
7/8/22	DALL·E 2 逐段精读	1:27:54
7/1/22	明白问题的重要性【研究的艺术·二】	1:03:40
6/24/22	跟读者建立联系【研究的艺术·一】	45:01
6/17/22	Zero 逐段精读	52:21
6/10/22	DETR 逐段精读	54:22
6/3/22	Megatron LM 逐段精读	56:07
5/27/22	GPipe 逐段精读	58:47
5/5/22	Pathways 逐段精读	1:02:13
4/28/22	视频理解论文串讲（下）	1:08:32
4/21/22	参数服务器（Parameter Server）逐段精读	1:37:40
4/14/22	视频理解论文串讲（上）	51:15
3/31/22	I3D 论文精读	52:31
3/24/22	斯坦福 2022 年 AI 指数报告精读	1:19:56
3/17/22	AlphaCode 论文精读	44:00
3/10/22	OpenAI Codex 论文精读	47:58
3/3/22	GPT, GPT-2, GPT-3 精读	1:29:58
2/24/22	Two-Stream 逐段精读	52:57
2/10/22	CLIP 逐段精读	1:38:25
2/6/22	你（被）吐槽过论文不够 novel 吗？	14:11
1/23/22	AlphaFold 2 精读	1:15:28
1/18/22	如何判断（你自己的）研究工作的价值	9:59
1/15/22	Swin Transformer 精读	1:00:21
1/7/22	指导数学直觉	52:51
1/5/22	AlphaFold 2 预告	03:28
12/20/21	对比学习论文综述	1:32:01
12/15/21	MoCo 逐段精读	1:24:11
12/9/21	如何找研究想法 1	5:34
12/8/21	MAE 逐段精读	47:04
11/29/21	ViT 逐段精读	1:11:30
11/18/21	BERT 逐段精读	45:49
11/9/21	GAN 逐段精读	46:16
11/3/21	零基础多图详解图神经网络（GNN/GCN）	1:06:19
10/27/21	Transformer 逐段精读（视频中提到的文献 ¹)	1:27:05
10/22/21	ResNet 论文逐段精读	53:46
10/21/21	撑起计算机视觉半边天的 ResNet	11:50
10/15/21	AlexNet 论文逐段精读	55:21
10/14/21	9年后重读深度学习奠基作之一：AlexNet	19:59
10/06/21	如何读论文	06:39

所有论文

包括已经录制完成和之后将要介绍的论文。选取的原则是10年内深度学习里有影响力文章（必读文章），或者近期比较有意思的文章。当然这十年里重要的工作太多了，不可能一一过一遍。在选取的时候我会偏向一些之前直播课中没讲到过的。欢迎大家在讨论区里提供建（点）议（歌）。

总论文数 67，录制完成数 32

（这里引用采用的是 semanticscholar，是因为它提供 API 可以自动获取，不用手动更新。）

计算机视觉 - CNN

已录制	年份	名字	简介
✅	2012	AlexNet	深度学习热潮的奠基作
	2014	VGG	使用 3x3 卷积构造更深的网络
	2014	GoogleNet	使用并行架构构造更深的网络
✅	2015	ResNet	构建深层网络都要有的残差连接。
	2017	MobileNet	适合终端设备的小CNN
	2019	EfficientNet	通过架构搜索得到的CNN
	2021	Non-deep networks	让不深的网络也能在ImageNet刷到SOTA

计算机视觉 - Transformer

已录制	年份	名字	简介
✅	2020	ViT	Transformer杀入CV界
✅	2021	Swin Transformer	多层次的Vision Transformer
	2021	MLP-Mixer	使用MLP替换self-attention
✅	2021	MAE	BERT的CV版

生成模型

已录制	年份	名字	简介
✅	2014	GAN	生成模型的开创工作
	2015	DCGAN	使用CNN的GAN
	2016	pix2pix
	2016	SRGAN	图片超分辨率
	2017	WGAN	训练更加容易
	2017	CycleGAN
	2018	StyleGAN
	2019	StyleGAN2
	2020	DDPM	Diffusion Models
	2021	Improved DDPM	改进的 DDPM
	2021	Guided Diffusion Models	号称超越 GAN
	2021	StyleGAN3
✅	2022	DALL.E 2	CLIP + Diffusion models，文本生成图像新高度

计算机视觉 - Object Detection

已录制	年份	名字	简介
	2014	R-CNN	Two-stage
	2015	Fast R-CNN
	2015	Faster R-CNN
	2016	SSD	Single stage
	2016	YOLO
	2017	Mask R-CNN
	2017	YOLOv2
	2018	YOLOv3
	2019	CenterNet	Anchor free
✅	2020	DETR	Transformer

计算机视觉 - 对比学习

已录制	年份	名字	简介
✅	2018	InstDisc	提出实例判别和memory bank做对比学习
✅	2018	CPC	对比预测编码，图像语音文本强化学习全都能做
✅	2019	InvaSpread	一个编码器的端到端对比学习
✅	2019	CMC	多视角下的对比学习
✅	2019	MoCov1	无监督训练效果也很好
✅	2020	SimCLRv1	简单的对比学习 (数据增强 + MLP head + 大batch训练久)
✅	2020	MoCov2	MoCov1 + improvements from SimCLRv1
✅	2020	SimCLRv2	大的自监督预训练模型很适合做半监督学习
✅	2020	BYOL	不需要负样本的对比学习
✅	2020	SWaV	聚类对比学习
✅	2020	SimSiam	化繁为简的孪生表征学习
✅	2021	MoCov3	如何更稳定的自监督训练ViT
✅	2021	DINO	transformer加自监督在视觉也很香

计算机视觉 - 视频理解

已录制	年份	名字	简介
✅	2014	DeepVideo	提出sports1M数据集，用深度学习做视频理解
✅	2014	Two-stream	引入光流做时序建模，神经网络首次超越手工特征
✅	2014	C3D	比较深的3D-CNN做视频理解
✅	2015	Beyond-short-snippets	尝试使用LSTM
✅	2016	Convolutional fusion	做early fusion来加强时空间建模
✅	2016	TSN	超级有效的视频分段建模，bag of tricks in video
✅	2017	I3D	提出Kinetics数据集，膨胀2D网络到3D，开启3D-CNN时代
✅	2017	R2+1D	拆分3D卷积核，使3D网络容易优化
✅	2017	Non-local	引入自注意力做视觉问题
✅	2018	SlowFast	快慢两支提升效率
✅	2021	TimeSformer	视频中第一个引入transformer，开启video transformer时代

多模态学习

已录制	年份	名字	简介
✅	2021	CLIP	图片和文本之间的对比学习
✅	2021	ViLT	第一个摆脱了目标检测的视觉文本模型
✅	2021	ViLD	CLIP蒸馏帮助开集目标检测
✅	2021	GLIP	联合目标检测和文本定位
✅	2021	CLIP4Clip	拿CLIP直接做视频文本retrieval
✅	2021	ActionCLIP	用多模态对比学习有监督的做视频动作分类
✅	2021	PointCLIP	3D变2D，巧妙利用CLIP做点云
✅	2022	LSeg	有监督的开集分割
✅	2022	GroupViT	只用图像文本对也能无监督做分割
✅	2022	CLIPasso	CLIP跨界生成简笔画
✅	2022	DepthCLIP	用文本跨界估计深度

自然语言处理 - Transformer

已录制	年份	名字	简介
✅	2017	Transformer	继MLP、CNN、RNN后的第四大类架构
✅	2018	GPT	使用 Transformer 解码器来做预训练
✅	2018	BERT	Transformer一统NLP的开始
✅	2019	GPT-2	更大的 GPT 模型，朝着zero-shot learning迈了一大步
✅	2020	GPT-3	100倍更大的 GPT-2，few-shot learning效果显著

系统

已录制	年份	名字	简介
✅	2014	参数服务器	支持千亿参数的传统机器学习模型
✅	2018	GPipe	流水线（Pipeline）并行
✅	2019	Megatron-LM	张量（Tensor）并行
✅	2019	Zero	参数分片
✅	2022	Pathways	将Jax拓展到上千TPU核上

图神经网络

已录制	年份	名字	简介	引用
✅	2021	图神经网络介绍	GNN的可视化介绍

优化算法

年份	名字	简介
2014	Adam	深度学习里最常用的优化算法之一
2016	为什么超大的模型泛化性不错
2017	为什么Momentum有效	Distill的可视化介绍

新领域应用

已录制	年份	名字	简介
	2016	AlphaGo	强化学习出圈
	2020	AlphaFold	赢得比赛的的蛋白质3D结构预测
✅	2021	AlphaFold 2	原子级别精度的蛋白质3D结构预测
✅	2021	Codex	使用注释生成代码
✅	2021	指导数学直觉	分析不同数学物体之前的联系来帮助发现新定理
✅	2022	AlphaCode	媲美一般程序员的编程解题水平

1 斯坦福100+作者的200+页综述，2 对LayerNorm的新研究，3 对Attention在Transformer里面作用的研究 ↩

mli/paper-reading

mli

Reviews

Repository Details

深度学习论文精读

录制完成的论文