admin管理员组

文章数量:821261

VCF变异文件读取和详细

下载了千人基因组variants数据,是.vcf.gz.vcf.gz.tbi文件格式,需要在linux上打开,此时我还是一个生信小菜鸡,记录一下vcf文件读取和详细解释。

在服务器先解压再打开,

gunzip 文件.vcf.gz
cat 文件.vcf
//建议用more或者less打开,对于大文件cat并不适用

结果如下,60G+的文件太大了,只好读取一部分:

VCF各列意义说明

各列之间用tab空白隔开;前面9列为固定列,第10列开始为样品信息列,可以无限多个;

#CHROM

POS

ID

REF

ALT

QUAL

FILTER

INFO

FORMAT

后面的列都为样品基因型信息列

具体说明如下

1.CHROM 记录染色体编号

2.POS 记录染色体位置信息

3.ID SNP/INDEL的dbSNP编号通常以rs开头,一般只有人类基因组才有dbSNP编号。比如在dbSNP中有该SNP的id,则会在此行给出;若没有,则用”.”表示其为一个novel variant。

4.REF 参考基因组碱基类型,必须是A,C,G,T,N且都大写。

5.ALT Variant变异碱基类型,必须是A,C,G,T,N,. 且都大写,多个用逗号分割。"."表示这个地方没有reads覆盖为缺失。

6.QUAL 变异信息的检测质量值,越高越可靠。

7.FILTER 标记过滤结果的列,通常我们把VCF文件中的变异信息进行质控,过滤掉低质量的变异位点,如果该位点通过过滤标准那么我们可以在该列标记为"PASS",说明该列质量值高。标记完之后我们就可以用其他工具,把标记为"PASS"的列给筛选出来,这样方便后续分析。如果没有应用缺失值"."代替。

8.INFO 为附加信息列,一般以

=;形式添加额外的注释信息列,常见的如DP=18 表示该位点测序深度为18X;AF=0.1表示等位基因频率为0.1;

9.FORMAT 为后面10列信息的说明列,通常以":"隔开各个缩写词。不同的变异检测软件可能会有差异,以下用GATK的检测结果为例:

10.10列(包含)以后为样品基因型列,各信息以":"分隔与FORMAT列一一对应;

GT 表示genotype,通常用”/” or
“|”分隔两个数字,“|”phase过也就是杂合的两个等位基因知道哪个等位基因来自哪条染色体;0代表参考基因组的碱基类型;1代表ALT碱基类型的第一个碱基(多个碱基用","分隔),2代表ALT第二个碱基,以此类推;比如

REF列为:A, ALT列为G,T;那么0/1基因型为AG 杂合,1/1基因型为GG纯合SNP;1/2代表GT基因型;./.表示缺失;

AD 两种碱基各自支持的碱基数量,用","分开两个数据,分别代表两个等位基因的深度;

DP 该样品该变异位点的测序深度总和,也就是AD两个数字的和;

PL 归一化后各基因型的可能性,通常有三个数字用’,'隔开,顺序对应AA,AB,BB基因型,A代表REF,B代表ALT(也就是0/0,
0/1, and 1/1),由于是归一化之后,数值越小代表基因型越可靠;那么最小的数字对应的基因型判读为该样品的最可能的基因型;

GQ
针对PL的判读得到的基因型的质量值,此值越大基因型质量值越好。由于PL归一化之后通常最小的数字为0;那么基因型的质量值取PL中第二小的数字,如果第二小的数字大于99,我们只取99,因为在GATK中再大的值是没有意义的,第二小的数大于99的话一般说明基因型的判读是很可靠的,只有当第二小的数小于99的时候,才有必要怀疑基因型的可靠性;

后面0|0这些数据的意思是,表示某个个体的基因型,0|0代表没有变异,都和参考基因组一样。也可根据AN,AC,AF等数据进行筛选。

本文标签: VCF变异文件读取和详细