使用 trimmomatic 进行数据质控

trimmomatic 使用 java 编写,免安装多平台运行,同时运行速度非常快。

1
2
3
4
5
6
7
8
9
10
11
# paired end 
java -jar trimmomatic-0.32.jar PE -threads 8 -phred33 \
sample_R1.fastq.gz sample_R2.fastq.gz \
sample_R1_paired.fastq.gz sample_R1_unpaired.fastq.gz \
sample_R2_paired.fastq.gz sample_R2_unpaired.fastq.gz \
ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 SLIDINGWINDOW:4:15 MINLEN:36

# single end
java -jar trimmomatic-0.32.jar PE -threads 8 -phred33 \
sample.fastq.gz sample_clean.fastq.gz \
ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 SLIDINGWINDOW:4:15 MINLEN:36

参数选择
PE/SE

设定对 Paired-End 或 Single-End 的 reads 进行处理,其输入和输出参数稍有不一样

threads

设置多线程运行数

phred33/phred64

设置碱基的质量格式,可选 phred64

ILLUMINACLIP::::::

切除 adapter 序列。参数后分别接 adapter 序列的 fasta 文件,允许的最大 mismatch 数, palindrome 模式下匹配碱基数阈值: simple 模式下的匹配碱基数阈值

minAdapterLength:只对 PE 测序的 palindrome clip 模式有效,指定 palindrome 模式下可以切除的接头序列最短长度,由于历史的原因,默认值是 8,但实际上 palindrome 模式可以切除短至 1bp 的接头污染,所以可以设置为 1 。
keepBothReads:只对 PE 测序的 palindrome clip 模式有效,这个参数很重要,在上图中 D 模式下, R1 和 R2 在去除了接头序列之后剩余的部分是完全反向互补的,默认参数 false,意味着整条去除与 R1 完全反向互补的 R2,当做重复去除掉,但在有些情况下,例如需要用到 paired reads 的 bowtie2 流程,就要将这个参数改为 true,否则会损失一部分 paired reads。

SLIDINGWINDOW

从 reads 首端( 5’端)开始进行滑动,当滑动位点周围一段序列(window)的平均碱基低于阈值,则从该处进行切除。 Windows 的 size 是 4 bp, 若其平均碱基质量小于15,则切除

MAXINFO:
LEADING/TRAILING>

切除 reads 首端( 5’端) / reads 末端( 3’端)碱基质量小于指定值的碱基

CROP/HEADCROP

从 reads 末端( 3’端)/reads 首端( 5’端)切除碱基到指定长度

MINLEN

抛弃低于指定长度的 reads

TOPHRED33/TOPHRED64

转换碱基质量格式,Illumina HiSeq 2000质量系统为phred-64,可用该参数转换到phred-33

---------本文结束,感谢您的阅读---------