admin管理员组

文章数量:1531320

2024年5月21日发(作者:)

1. 什么是VCF?

CVF是用于描述SNP,INDEL和SV结果的文本文件。在GATK软件中得到最好的支

持,当然SAMtools得到的结果也是CVF格式,和GATK的CVF格式有点差别。

2. VCF的主体结构

先给出一个VCF文件的范例:

##fileformat=VCFv4.0 ##FILTER= ##FORMAT= ##FORMAT= ##FORMAT=

##FORMAT= ##FORMAT= ##INFO= ##INFO= ##INFO= ##INFO= ##INFO=

##INFO= ##INFO= ##INFO= ##INFO= ##INFO= ##INFO= ##INFO= ##INFO=

##INFO= ##UnifiedGenotyperV2="analysis_type=UnifiedGenotyperV2

input_file=[TEXT CLIPPED FOR CLARITY]" #CHROM POS ID REF ALT QUAL FILTER

INFO FORMAT NA12878 chr1 873762 . T G 5231.78 PASS

AC=1;AF=0.50;AN=2;DP=315;Dels=0.00;HRun=2;HaplotypeScore=15.11;MQ=91.

05;MQ0=15;QD=16.61;SB=-1533.02;VQSLOD=-1.5473 GT:AD:DP:GQ:PL

0/1:173,141:282:99:255,0,255 chr1 877664 rs3828047 A G 3931.66 PASS

AC=2;AF=1.00;AN=2;DB;DP=105;Dels=0.00;HRun=1;HaplotypeScore=1.59;MQ=9

2.52;MQ0=4;QD=37.44;SB=-1152.13;VQSLOD=

1/1:0,105:94:99:255,255,0 chr1 899282

0.1185

C

GT:AD:DP:GQ:PL

T 71.77 PASS rs28548431

AC=1;AF=0.50;AN=2;DB;DP=4;Dels=0.00;HRun=0;HaplotypeScore=0.00;MQ=99.

00;MQ0=0;QD=17.94;SB=-46.55;VQSLOD=-1.9148

0/1:1,3:4:25.92:103,0,26 chr1 974165 rs9442391 T C

GT:AD:DP:GQ:PL

29.84 LowQual

AC=1;AF=0.50;AN=2;DB;DP=18;Dels=0.00;HRun=1;HaplotypeScore=0.16;MQ=95

.26;MQ0=0;QD=1.66;SB=-0.98 GT:AD:DP:GQ:PL 0/1:14,4:14:60.91:61,0,255

从范例上看,VCF文件分为两部分内容:以“#”开头的注释部分;没有“#”开头的

主体部分。

值得注意的是,注释部分有很多对VCF的介绍信息。实际上不需要本文章,只是看看

这个注释部分就完全明白了VCF各行各列代表的意义。我们先讲VCF文件主题部分的结

构,如下所示:

[HEADER LINES] #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT

NA12878 chr1 873762 . T G 5231.78 PASS [ANNOTATIONS] GT:AD:DP:GQ:PL

0/1:173,141:282:99:255,0,255 chr1 877664 rs3828047 A G 3931.66 PASS

[ANNOTATIONS]

rs28548431 C

GT:AD:DP:GQ:PL

T 71.77

chr1

1/1:0,105:94:99:255,255,0

[ANNOTATIONS]

rs9442391 T C

chr1 899282

PASS

974165

GT:AD:DP:GQ:PL

29.84 LowQual 0/1:1,3:4:25.92:103,0,26

[ANNOTATIONS] GT:AD:DP:GQ:PL 0/1:14,4:14:60.91:61,0,255

以上去掉了头部的注释行,只留下了代表每一行意义的注释行。主体部分中每一行代

表一个Variant的信息。

3. 怎么解释Variation

CHROM 和 POS:代表参考序列名和variant的位置;如果是INDEL的话,位置是

INDEL的第一个碱基位置。

本文标签: 部分注释文件代表结果