生物背景从事生物信息分析工作,本科时候对统计、计算机之类的有些兴趣,觉着“生物信息”很高大上的样子,什毛都不懂就如了生信的坑,这一路下来,知道越多越觉得需要了解、懂的东西也越多,经常有“我擦勒,要学这么多东西啊” , linux
, R
, python
, perl
…… 微博上看了各种从入门到放弃系列,觉得很有意思,这里也不自知的写个从入门到放弃吧,生物信息是一个多学科的交叉学科,遗传、生理、计算机、统计基础好像都须知道一些,“XXX,从入门到放弃”,我也不知道是啥从入门到放弃。
很早就有利用博客整理、交流学习思路的想法,懒癌穷癌很成功的阻止了我,看到很多利用github的教程,简单粗暴,终于鼓起勇气试试。
讲真,统计不是很懂,遗传不知道怎么说起,那就说说生信分析的linux、R、python这些咯。
Linux
分析主要工作环境,命令行操作,分析工具众多。
基础命令:cd,pwd,ls,mkdir,rm,touch,cp,mv,echo,wc,ln
文件查看:head,tail,more,less,cat (zcat)
打包压缩:tar,gzip,zip,bzip2
文件处理:vim,awk,sed,grep (zgrep),join
其他几个有用的命令:find,top,ps,kill,free
Linux系统命令可以通过man command
或者command --help
的方式查看帮助信息
其他几个须知的点:重定向>
,文本追加>>
,管道|
,后台运行&
和nohup
,标准输入、标准输出和标准错误
R
两个功能,分析和绘图。分析这个主要是利用一些现成R package,例如转录组分析中DESeq、edgeR这些;绘图,当时还是ggplot2,教程很多,我这个R战五渣没有发言权。学习R,当然要有RStudio,R书籍什么的, R语言实战、ggplot2数据分析与图形艺术都可以看下。
python
主要是文件整理吧,不同格式转换,提取有效信息。python语法简单,基本上很快都能写出实现自己功能的代码,有很多第三方modules帮你实现想要的功能,另外学习的人多啊,不怕找不到人问问题。
编程能力这个还是靠多练习了,一些知识点就只能自己看书看教程背,现在网上也很多python相关的资料教程,边看边练习,入门很快的。记得,我当时看了很多七七八八的教程,然而少练习,折腾挺长时间,廖雪峰的python教程 (2.7),笨方法学python ,github上也是有很多python学习笔记或者英文书籍翻译。
强烈推荐ipython,可以理解为python里的Rstudio吧,可以生成富文本(filename.ipynb)文件,很方便用于脚本展示、交流。
Anaconda ,一个python科学计算环境,包括了常用的numpy、pandas、matplotlib、ipython等modules,管理python工作环境,实现python2
, python3
和谐共存,这个也是刚开始了解,熟悉的朋友可以交流交流。
perl
和python类似吧,文件整理。这个这个,只会打印hello, world
,算是不会了,网上也很多博客教程,可以参考学习。
其他技能
MarkDown
语法简单,结果展示酷炫,低门槛装逼利器。
Typore:免费markdown编辑器里面最好的,界面简洁,支持多种格式(pdf,html,docx等等)导出。
Docker
可以掌握的技能。关注docker,这是因为同事提到工作流程迁移系统环境兼容的问题,docker完全免去了这些烦恼。无奈,工作系统版本太低,无法安装,还没有试过。