admin管理员组文章数量:1530968
2024年1月18日发(作者:)
vcf格式文件处理大全(四)
展开全文
前面介绍过fasq,fastq,bam三种生物数据分析中常用的格式。fasta一般作为比对的参考序列,fastq为测序数据,将fastq比对到fasta则生成bam文件,对bam进行排序建立索引,就可以直接输出为vcf格式,这个系列我们来详细介绍一下vcf格式的操作。
13 Annovar注释
annovar也是一款比较有名的变异位点注释工具,使用起来也非常容易,使用vcf格式就可以进行注释,软件会首先对其进行格式转换,然后进行注释。
#生成annovar格式
-format vcf4old >
#gene-based注释
annotate_ --geneanno -buildver hg38 --outfile humandb/
14 clinvar临床数据库注释
clinvar是收集了与人类疾病相关突变位点的数据库,将得到的突变位点与clinvar数据库进行比对即可根据突变情况进行疾病的预测。使用clinvar数据库首先需要下载clinvar数据库,下载之后可以使用snpEFF后者annovar软件进行注释。
#clinvar注释
-format vcf4old >
annotate_ --filter -buildver hg38 --
outfile -dbtype clinvar_20180603 humandb/
15 一致性序列
所谓一致性序列,就是一条与参考序列长度一致,但是仅将突变位点进行替换的序列,一致性序列完全根据参考序列为模板生成,是并不存在的序列,主要用于后面构建系统发育树。
bcftools consensus -f -s Sample1 -o Sample1_
16 VQSR
VQSR是Variant Quality Score Recalibration,是GATK的核心功能,也就是利用机器学习算法对vcf进行过滤。利用机器学习算法对突变位点进行过滤比采用“一刀切”对所有位点处理的方式准确性更高。进行VQSR,首要要准备的已知变异集作为训练集,可以是Hapmap、OMNI,1000G,dbsnp,瓶中基因组计划等这些国际性项目的数据,然后利用训练集对每一个位点进行过滤。利用VariantRecalibrator工具进行机器学习,ApplyVQSR工具进行处理。VQSR过滤SNP和InDel分别进行,首先处理SNP,得到结果后,在进行InDel处理。具体方法可以参加gatk软件的VQSR说明部分。
/gatk/discussion/39/variant-quality-score-recalibration-vqsr
---------- END ----------
版权声明:本文标题:vcf格式文件处理大全(四) 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://m.elefans.com/dongtai/1705541417a143992.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论