最先知道的 VCF 注释软件,但是呢没有搞定构建研究物种的注释数据库,于是转向snpEff,工作转向临床分析时候,发现 ANNOVAR 在人类数据注释多种第三方数据库支持,变异频率、HGVS、ACMG致病性、dbSNP、Cosmic支持等等
软件文档镇楼: http://annovar.openbioinformatics.org/en/latest/
软件下载
ANNOVAR 由 perl 实现,下载即用,软件下载地址为:http://www.openbioinformatics.org/annovar/annovar_download_form.php ,软件包包括下面几个功能脚本:
- annotate_variation.pl, 主程序,数据库下载,变异注释等等
- coding_change.pl, 推断蛋白序列的变化
- convert2annovar.pl,
- retrieve_seq_from_fasta.pl,
- table_annovar.pl, 注释程序,根据数据库选择完成不同类型变异注释
- variants_reduction.pl,
数据库下载、整理
ANNOVAR 注释变异可以分成有基于基因、基于染色体区间和变异数据等三种类型
基于gene的注释
注释结果为突变位点位于基因的相对位置,是否改变氨基酸编码,获得变异位点的HGVS命名方式
基于染色体区间的注释
获取变异位点是否存在于某些特定的区间内,Identify cytogenetic band, 转录因子结合区等等
变异数据库的注释
包括Clinvar, dbSNP, Cosmic, ExAC, gnomAD等等,突变数据库整理可参考从 vcf 文件准备 ANNOVAR 数据库
ANNOVAR 数据库文件实际上为特定格式的文本文件,其数据库文件命名规则为: \${path_database}/\${buildver}_\${database_name}.txt
软件运行
1 | input file format: vcf |
非人物种数据库整理
1 | 下载物种基因序列、注释文件 |