单细胞转录组数据处理视频课程
课程说明在:https://mp.weixin.qq.com/s/AV2uTbsvJGBRq_zv7yDmNg
表达矩阵获取
这里的例子是2018年12月的NC文章:Spatially and functionally distinct subclasses of breast cancer-associated fibroblasts revealed by single cell RNA sequencing 使用成熟的单细胞转录组( Smart-seq2 )手段探索了癌相关的成纤维细胞 CAFs的功能和空间异质性。
在文章搜索到作者上传的数据的GEO链接: GSE111229 就可以找到作者处理好的表达矩阵(counts和RPKM格式的都有)
Supplementary file | Size | Download | File type/resource |
---|---|---|---|
GSE111229_Mammary_Tumor_fibroblasts_768samples_rawCounts.txt.gz | 5.3 Mb | (ftp)(http) | TXT |
GSE111229_Mammary_Tumor_fibroblasts_768samples_rpkmNormalized.txt.gz | 23.8 Mb | (ftp)(http) | TXT |
如果想下载作者测序的原始测序数据:SRP133642 来走一波RNA-seq上游流程就需要:
shell脚本处理RNA-seq数据上游分析全部代码在:code
转录组分析回顾
主要是考虑到完全复现这篇文章数据的全部处理过程,需要掌握linux,r,转录组,考虑到不少人会基础知识有点薄弱,所以通过引入常规转录组数据分析
的演示来提醒大家巩固基础知识!
这一单元代码都在 section01-RNA-seq
文件夹,进入打开后缀是 Rproj
的文件就会自动调用你系统的Rstudio软件,从而定位到项目。
-
step0-index.R
- 读取 作者的counts文件,简单过滤,并且logCPM转换
-
step1-check.R
- 检测表达矩阵里面细胞的相关性,hclust结果,热图展现,PCA图展现
-
step2-cv2.R
- 检测基因的变异系数及基因表达量的均值的相关性,探索其它统计学指标
-
step3-batch-PCA-tSNE.R
- 查看表达量是否受批次效应影响,这里简短介绍了PCA和tSNE作用
-
step4-gene-number.R
- 查看不同分组条件下检测到的基因数量的多少分布
-
step5-pam50.R
- 生物学背景知识,对乳腺癌研究不感兴趣的请不要学习
-
step6-cell-cycle.R
- 生物学背景知识,最好是自行搜索了解
-
step7-counts2rpkm.R
- 完全的R代码技巧,能力不够着请不要浪费时间学习,非常辛苦的。
-
step8-DEG.R
- 根据文章
单细胞转录组数据分析
首先学习3个R包
见 section02-scRNA 文件夹代码,因为文章其实并没有使用主流单细胞转录组R包,这里仅仅是根据scRNAseq的示例数据来讲解,进入打开后缀是 Rproj
的文件就会自动调用你系统的Rstudio软件,从而定位到项目。
然后尝试把这3个R包应用到该文章的数据
见 section03-for_paper 文件夹代码,进入打开后缀是 Rproj
的文件就会自动调用你系统的Rstudio软件,从而定位到项目。可以完全复现文章图表。
最后是公共数据库挖掘
在 section04-downstream 文件夹,进入打开后缀是 Rproj
的文件就会自动调用你系统的Rstudio软件,从而定位到项目。