vcf 注释 —— ANNOVAR

最先知道的 VCF 注释软件,但是呢没有搞定构建研究物种的注释数据库,于是转向snpEff,工作转向临床分析时候,发现 ANNOVAR 在人类数据注释多种第三方数据库支持,变异频率、HGVS、ACMG致病性、dbSNP、Cosmic支持等等

软件文档镇楼: http://annovar.openbioinformatics.org/en/latest/

软件下载

ANNOVAR 由 perl 实现,下载即用,软件下载地址为:http://www.openbioinformatics.org/annovar/annovar_download_form.php ,软件包包括下面几个功能脚本:

  • annotate_variation.pl, 主程序,数据库下载,变异注释等等
  • coding_change.pl, 推断蛋白序列的变化
  • convert2annovar.pl,
  • retrieve_seq_from_fasta.pl,
  • table_annovar.pl, 注释程序,根据数据库选择完成不同类型变异注释
  • variants_reduction.pl,

数据库下载、整理

ANNOVAR 注释变异可以分成有基于基因、基于染色体区间和变异数据等三种类型

  1. 基于gene的注释

    注释结果为突变位点位于基因的相对位置,是否改变氨基酸编码,获得变异位点的HGVS命名方式

  2. 基于染色体区间的注释

    获取变异位点是否存在于某些特定的区间内,Identify cytogenetic band, 转录因子结合区等等

  3. 变异数据库的注释

    包括Clinvar, dbSNP, Cosmic, ExAC, gnomAD等等,突变数据库整理可参考从 vcf 文件准备 ANNOVAR 数据库

ANNOVAR 数据库文件实际上为特定格式的文本文件,其数据库文件命名规则为: \${path_database}/\${buildver}_\${database_name}.txt

软件运行

1
2
3
4
# input file format: vcf
table_annovar.pl example/ex2.vcf humandb/ -buildver hg19 -out myanno -remove -protocol refGene,cytoBand,esp6500siv2_all,1000g2015aug_all,1000g2015aug_afr,1000g2015aug_eas,1000g2015aug_eur,snp138,dbnsfp30a -operation g,r,f,f,f,f,f,f,f -nastring . -vcfinput

# 不同于snpEff,ANNOVAR 所有注释结果都在 vcf 文件 INFO 列添加key-value

非人物种数据库整理

1
2
3
4
5
6
7
8
9
10
11
12
13
# 下载物种基因序列、注释文件
wget -c ftp://ftp.ensemblgenomes.org/pub/release-27/plants/fasta/arabidopsis_thaliana/dna/Arabidopsis_thaliana.TAIR10.27.dna.genome.fa.gz
wget -c ftp://ftp.ensemblgenomes.org/pub/release-27/plants/gtf/arabidopsis_thaliana/Arabidopsis_thaliana.TAIR10.27.gtf.gz
gzip -d Arabidopsis_thaliana.TAIR10.27.dna.genome.fa.gz
gzip -d Arabidopsis_thaliana.TAIR10.27.gtf.gz

# gtf文件格式转换
gtfToGenePred -genePredExt Arabidopsis_thaliana.TAIR10.27.gtf AT_refGene.txt
# wget -c http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/gtfToGenePred
# 另一种格式转换方法,https://github.com/chengcz/pyGTF

# 使用软件包提供脚本build物种数据库,数据库buildver为AT,名称为refGene
perl retrieve_seq_from_fasta.pl --format refGene --seqfile Arabidopsis_thaliana.TAIR10.27.dna.genome.fa AT_refGene.txt --out AT_refGeneMrna.fa
---------本文结束,感谢您的阅读---------