trimmomatic 使用 java 编写,免安装多平台运行,同时运行速度非常快。
1 | paired end |
参数选择
PE/SE
设定对 Paired-End 或 Single-End 的 reads 进行处理,其输入和输出参数稍有不一样
threads
设置多线程运行数
phred33/phred64
设置碱基的质量格式,可选 phred64
ILLUMINACLIP:
切除 adapter 序列。参数后分别接 adapter 序列的 fasta 文件,允许的最大 mismatch 数, palindrome 模式下匹配碱基数阈值: simple 模式下的匹配碱基数阈值
minAdapterLength:只对 PE 测序的 palindrome clip 模式有效,指定 palindrome 模式下可以切除的接头序列最短长度,由于历史的原因,默认值是 8,但实际上 palindrome 模式可以切除短至 1bp 的接头污染,所以可以设置为 1 。
keepBothReads:只对 PE 测序的 palindrome clip 模式有效,这个参数很重要,在上图中 D 模式下, R1 和 R2 在去除了接头序列之后剩余的部分是完全反向互补的,默认参数 false,意味着整条去除与 R1 完全反向互补的 R2,当做重复去除掉,但在有些情况下,例如需要用到 paired reads 的 bowtie2 流程,就要将这个参数改为 true,否则会损失一部分 paired reads。
SLIDINGWINDOW
从 reads 首端( 5’端)开始进行滑动,当滑动位点周围一段序列(window)的平均碱基低于阈值,则从该处进行切除。 Windows 的 size 是 4 bp, 若其平均碱基质量小于15,则切除
MAXINFO:
LEADING/TRAILING>
切除 reads 首端( 5’端) / reads 末端( 3’端)碱基质量小于指定值的碱基
CROP/HEADCROP
从 reads 末端( 3’端)/reads 首端( 5’端)切除碱基到指定长度
MINLEN
抛弃低于指定长度的 reads
TOPHRED33/TOPHRED64
转换碱基质量格式,Illumina HiSeq 2000质量系统为phred-64,可用该参数转换到phred-33