• Stars
    star
    225
  • Rank 177,187 (Top 4 %)
  • Language
    HTML
  • Created over 5 years ago
  • Updated about 5 years ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

从事生物信息学数据分析6年的一些思考和总结

截止到今天(2019年11月)我的生信之路已经有6个年头了,然后在中国各大城市做了一些宣讲,分享自己成长为生信工程师的一些心路历程,巡讲动态

  • 2019:北上广深杭,郑州西安武汉长沙成都重庆
  • 2019-10-27:广西南宁广西大学

以下是正文

依托于2018在生信技能树公众号发布的生信工程师入门最佳指南 :https://mp.weixin.qq.com/s/vaX4ttaLIa19MefD86WfUA

先搞清楚生信工程师都在干嘛:

  • 售前售后技术支持-偏生物医学背景知识
  • 应用项目研发-偏编程和流程
  • 科研热点追踪或者前沿探索

这三类生信工程师养成的侧重点不一样,但是数据分析能力的获取的第一步是类似的,如果你是初入我们行业,那么下面的资源和指导不容错过!

关于生物学背景

因为绝大部分转生物信息学工程师的小伙伴都是有至少4年的生物学背景,生物大分子,中心法则都没有问题,但是也有部分计算机背景学生转过来,会不停的问我该如何补充生物学背景,这里推荐慕课(https://www.icourse163.org/)的两个课程

关于R语言学习

专门为R语言建立了 GitHub 仓库存放相关学习路线指导资料:https://github.com/jmzeng1314/R_bilibili

找到任何一本配套R书籍,然后就可以学习我的教学视频,都在:https://www.bilibili.com/video/av25643438/ 同样的有配套教学大纲:文档链接:https://mubu.com/doc/HGT7XBmgg 密码:muwu

作业

下面是一些优秀作业答案:

关于linux学习

课程大纲:https://mubu.com/doc/2iA2skGIGg

教学重点是(去可视化概念+练习) ,了解 命令+参数+文件 的模式

基础知识:cd -, cd ..  , cd -, history, !5 ,  /home/ , /tmp/ , >,&,jobs,nohup 1,2,0
文件目录操作:ls,cd,pwd,mkdir,rm,mv,cp,touch,head,tail,less,more
系统管理: df,du,top,free,ps,ipconfig,netstat,ssh,scp,
用户权限:chown,chgrp,groups,ls
文本操作:awk,grep,sed,paste,cat,diff,wc,vi 

教学视频在:https://www.bilibili.com/video/av28813815

中英文命令对照:https://mp.weixin.qq.com/s/iEYSX9EM-y1QKRK7KMZYfA

作业

关于其它编程语言

不同的编程语言的语法很大程度是互通的,都是基本数据类型,基本数据结构,函数及循环控制语句等等,比如Python和R语言的异同点。

建议囫囵吞枣看完几遍语法后,马上实践做题:https://mp.weixin.qq.com/s/n-C2P322ZWQyZ6-3EEKbxA

编程实战练习题目录

  • 01:生信编程思维获得
  • 02: hg19基因组序列的一些探究
  • 03: hg38每条染色体的基因、转录本分布
  • 04: 多个同样行列式文件的合并
  • 05: 根据GTF画基因的多个转录本结构
  • 06: 下载最新版的KEGG信息,并且解析好
  • 07: 写超几何分布检验
  • 08: ID转换
  • 09: R语言爬虫
  • 10: R语言shiny
  • 11: 用Biostrings包来处理fasta序列
  • 12: 根据指定染色体及坐标得到序列
  • 13: JSON 数据的格式化
  • 14: fasta 数据处理

更多习题见传送门:http://www.biotrainee.com/thread-1075-1-1.html

关于NGS数据分析

重新制作了NGS相关视频教程免费发布在B站,几个NGS组学实战代码是:

视频都在B站:https://mp.weixin.qq.com/s/gqib-RtbC315Zad-8KmkXw

下游分析(个性化)才是考验工程师水平:https://mp.weixin.qq.com/s/7MKDptXy9Di49_yoYNdrvw

关于统计可视化

这方面我的分享做的远远不够,推荐一下 统计学基础:https://mp.weixin.qq.com/s/OtB2h6f00U2SRZLzveJKfQ

可视化我也一直在努力当中:https://mubu.com/doc/3L0wkgGUVg (绘图大全)

关于数据挖掘

很多朋友之所以学习R语言其实就是为了重复一些简单的数据库挖掘文章,所以我也顺便录制了GEO数据库挖掘课程:

我这边的学徒实习生一直在分析数据挖掘技巧,目录在:学徒数据挖掘第二期汇总之多分组基因注释代码大放送(compareCluster)

关于科研思维建立

因为本科毕业后就一直在公司工作,并没有实际负责过科研项目,现在博士阶段才有机会来建立科研思维,所以这方面我还是在探索阶段, 仅仅是列出我博士第一年的一些努力:

然后是博士第二年(也就是现在)的一些努力:

关于行业发展前景预测

不知道,尽量提升自己的能力先吧,所以我们举办了第一届生物信息学人才发展论坛:

关于团队招新

随时欢迎,详细说明为什么要跟随我做知识分享即可,参考:https://mp.weixin.qq.com/s/jn1Xe7IDdTY_9tDpz-3Vfw

另外,我们生信技能树常年招学徒:https://mp.weixin.qq.com/s/9CFW37FrMbZsjuj--TPWKA