admin管理员组

文章数量:1530921

2023年12月14日发(作者:)

haploview 数据格式错误解决方法

最近要使用haploview这个软件,先在实验室电脑上装了一个,直接在hapmap下的数据载入是正常的,结果在hapmap上下载的数据怎么都载不进去,但是软件自带的那个数据载入又是正常的。实验室haploview也不能载入hapmap上下载的数据了

haploview还可以载入其他格式的数据,只是我们通常都直接从hapmap上下载,比较方便。谁让我倒霉呢„„ 只好用不方便的。/projects/SNP/snp_ 打开这个网址,

按照上面的选项填好自己的要求,一共有三个step,填完step1 点next就会进入step2 ;

在step2 选择好所需的人种,点display results 就会进入step3 ;

在step3 下方的四个蓝色按钮的上面那一行小字里有download haploview

files,点击就可以下载压缩文件。解压这个文件里面有info 和ped 两个文件,这是对应于haploview 里linkage format 的,ped 对应data file,info 对应 locus information file,选择好后点ok 就能载入了。

换了个格式总算是把数据给载进去了,我的脑细胞呀~都损失在之前的极度焦虑之中了„„

其实这个事情已经成为过去式有一小段时间了,一直在纠结要不要写出来呢(之所以纠结,其实是因为我懒,脸红一下)。虽然换一种数据格式是我自己想到的,可筒子们要理解,数据库的使用是复杂滴,探索使用方法的道路是艰辛滴,所以那个下载数据的方法是本人在探索无果的情况下经过长时间的谷歌找到滴。既然下载的方法是借鉴的别人的劳动成果,所以我 决定也把我的经验提供给大家,希望能帮到需要的筒子。

帮助说明/projects/SNP/

Detailed information for SNP Genotypes

The URL for the genotype pages is

/projects/SNP/snp_

The HTML interface has 3 pages:

The first page is a form for selecting species and SNPs.

The second page is a form for selecting populations.

The third page contains the search results in HTML, text, or XML.

All form parameters can be specified on any page and will be reflected in the

forms. The list of all HTTP form parameters is in the following table.

Name Page Value

pg

All 0, 1, or 2 for pages first, second, or third page,

respectively.

species

first The species or tax ID to be searched. This is either the

tax ID in an integer form or the name of the species

followed by an underscore and the tax id. For example,

human_9606 and 9606 are equivalent.

tax_id

first

Same as species. Ignored if species is specified.

RSPick

first 1 if selecting SNPs by RS numbers, 2 if selecting a gene

by name or ID, empty or 0 otherwise.

RSlist

first A list of rs number delimited by spaces, commas, or

newlines. This is used only if RSPick is 1

Gene

first The name or NCBI ID of a gene. This is used only if

RSPick is 2.

chr

first Chromosome. This can be a number or a string such as

X, Y, Un, or MT. This is used only if RSPick is empty or

0.

rng

Range of SNPs to be selected, valid values are C and

first

F. F specifies a range and C specifies that the range

is centered around an RS number or base pair. This

is used only if RSPick is empty or 0. See below for

more details

rngspec

first

Values are chr_pos or rs If chr_pos then the range

will be selected by number of base pairs within the

chromosome, otherwise it is a range between two RS

numbers or an within a specified number of base pairs of

an RS, depending on the value of rng. This is used

only if RSPick is empty or 0.

from

first This is the position in base pairs within the chromosome

or an RS number for the beginning or center of the

range, depending on the value of rng (see above.) RS

numbers can optionally be preceeded with 'rs' and base

pair numbers may optionally end with K or M for kilo or

mega base pairs. This is used only if RSPick is empty

or zero.

to

If rng is F this is the ending RS number or base pair,

first

using the format as from above. If rng is C this is the

number of base pairs from the centered position

specified in from above. This is used only if RSPick

empty or 0.

weight1

first 1 if selecting weight 1 snps only, omitted

otherwise. This is used only if RSPick is not 1.

trusnp

first 1 if selecting SNPs only, omitted otherwise. This is

used only if RSPick is not 1.

diall

first 1 if selecting diallelic SNPs only, omitted

otherwise. This is used only if RSPick is not 1.

snpfnc

first SNP Function. An integer representing the SNP

function. Multiple values can be selected, but they must

be separate name=value pairs. For example

snpfnc=2&snpfnc=3&snpfnc=4, etc. This is

optional and is used only if RSPick is not 1.

founders

second 1 if selecting founders only within a pedigree, omitted

otherwise.

pop

second For Human (9606): Population and type. A string

consisting of the integer pop_id from the Population

table followed by an exclamation point (!) and the integer

population group. The population groups are:

0 - Undefined

1 - African American

2 - Asian

3 - European

4 - Global

5 - Hispanic

6 - Native American

7 - North African/Middle Eastern

8 - Sub-Saharan African

9 - Tissue

For non-human species this is the integer pop_id only.

Multiple name=value pairs may be used.

ind

second

For non-human only. submitted_ind_id from the

SubInd table. Multiple name=value pairs may be

used.

type

api

third

third

indGty

third

The value is xml for downloading xml, text for tab

separated text, and empty or omitted for retrieving html.

If the value is 1 then the Content-type will be

text/xml for xml and text/plain for text. If this is

omitted or the value is 0 then the content-type will be

application/octet-stream. The purpose of this is

to direct the browser to save the output to a file.

If the value is no then individuals, genotypes, and

pedigrees are omitted. This is used only when type is

xml,

Examples

Perl program for retrieving a genotype report in XML.

XSLT for converting an XML report to TAB separated text and an

additional required XSLT file.

第一, 要知道所选的基因上都有哪些SNP位点。这个工作说起来很简单,可以借助dbSNP数据库,或者可以查HamMap汉族人群的数据,还有一些别的数据库。但是有个问题不太好解决,就是基因上下游该不该也选一些点?基因上下游的序列理论上可能有调节作用的。如果要选的话,上下游该扩多少kb?

第二,当然是收集SNP位点的具体信息了。SNP位点所处的位置很重要,位于外显子的、外显子内含子交界区的、promoter区的相对来说要重要些,当然内含子内也可能存在调控元件(如内含子剪切增强子等)。对于每一类SNP位点都可以找到相应的生物信息学预测工具,如有专门预测promoter区可能存在的转录因子结合位点的,有预测非同义突变是否会改变蛋白质的结构和功能的,等等。如果能在别人发表的文章里找到直接的功能证据那更好了,不过那也就代表功能研究没法再做了。有个网站可以推荐一下F-SNP

congsheng1984的问题是怎样分析某基因拥有的单核甘酸多态性的生物学信息,和怎么挑选snp位点做关联研究没什么必然的联系。HapMap上提供的位点数目很有限,哪里谈得上全面。

当然,如果要做关联研究,SNP位点的挑选至关重要。挑选的方法可以简单的归为两类:一种可以称之为"Map Based",另一种可以称之为"Gene Based"。前者可以理解为挑选tagSNP位点,挑选的目标无非是要达到好的覆盖度。具体的方法可以参见Haploview里面的Haplotypes和Tagger。挑选tagSNP时存在两个问题,一是对很大的基因或者连锁不平衡程度很低的基因,要达到很好的覆盖度往往需要选择较多数量的tagSNP位点,二是挑选tagSNP位点时常常会去掉频率较低的位点(这个可以自己控制,但是如果MAF设置得较低,你就必须选择较多的位点)。Gene Based则可以理解为挑选有潜在功能的SNP位点。也就是借助生物信息学的预测工具,挑选可能会影响基因功能的SNP位点。如果你要做一个基因的关联研究,该基因上有30个SNP位点,首先你看看有没有可能挑选tagSNP,如果挑选8个

位点就能代表这30个位点,那你当然可以做了。如果要15个才可以,你又没有高通量的基因分型平台可以用,我想你肯定就不会选tagSNP了。这时候你怎么办,赌一把吧,随便挑几个。聪明一点的赌法是先预测一下,挑几个可能改变功能的。

当然,对SNP进行生物信息学的功能预测不单单是拿来聪明地赌一把的。我们知道关联研究提供的是多态位点和疾病间的统计学关联,要明确SNP位点和疾病的关系,必须要进行功能研究的。你发现某一SNP位点和疾病统计学相关后,功能研究该怎么做,先预测一下吧。该位点位于promoter区,位于预测的转录因子结合位点上。Oh, my god. 赶紧构建报告基因吧。 congsheng1984的问题是怎样分析某基因拥有的单核甘酸多态性的生物学信息,和怎么挑选snp位点做关联研究没什么必然的联系。HapMap上提供的位点数目很有限,哪里谈得上全面。

当然,如果要做关联研究,SNP位点的挑选至关重要。挑选的方法可以简单的归为两类:一种可以称之为"Map Based",另一种可以称之为"Gene Based"。前者可以理解为挑选tagSNP位点,挑选的目标无非是要达到好的覆盖度。具体的方法可以参见Haploview里面的Haplotypes和Tagger。挑选tagSNP时存在两个问题,一是对很大的基因或者连锁不平衡程度很低的基因,要达到很好的覆盖度往往需要选择较多数量的tagSNP位点,二是挑选tagSNP位点时常常会去掉频率较低的位点(这个可以自己控制,但是如果MAF设置得较低,你就必须选择较多的位点)。Gene Based则可以理解为挑选有潜在功能的SNP位点。也就是借助生物信息学的预测工具,挑选可能会影响基因功能的SNP位点。如果你要做一个基因的关联研究,该基因上有30个SNP位点,首先你看看有没有可能挑选tagSNP,如果挑选8个位点就能代表这30个位点,那你当然可以做了。如果要15个才可以,你又没有高通量的基因分型平台可以用,我想你肯定就不会选tagSNP了。这时候你怎么办,赌一把吧,随便挑几个。聪明一点的赌法是先预测一下,挑几个可能改变功能的。

当然,对SNP进行生物信息学的功能预测不单单是拿来聪明地赌一把的。我们知道关联研究提供的是多态位点和疾病间的统计学关联,要明确SNP位点和疾病的关系,必须要进行功能研究的。你发现某一SNP位点和疾病统计学相关后,功能研究该怎么做,先预测一下吧。该位点位于promoter区,位于预测的转录因子结合位点上。Oh, my god. 赶紧构建报告基因吧。

楼上你挑选tagsnp依据那个人种的资料

除了hapmap你再给我找出一个合适的

还有大规模snp平台在中国已经很普遍了

即使不用,挑选的时候要要依据中国人的频率

UID4602 帖子1200 精华0 积分0 阅读权限10 在线时间0 小时 注册时间2006-11-25 最后登录2011-2-27 查看详细资料

TOP

至于上下游的选择只有经费有时肯定必须的,现在做snp首先考虑的

是对于这个基因的一个密度覆盖也就是taqsnp的概念,启动子区和根据

该基因本人种的单体型图,要覆盖该基因所在的所有block,力求保证每个

block中至少有1-2个taqsnp

对于snp所处于的位置我认为倒没有那么重要,绝大多数文章找到的snp都在无功能区域或

是内含子区域,具体的功能有很多很难预测,只能先放在那里

1、 使用Genome Variantion Server /GVS/

使用帮助 how to use GVS

/GVS/#FILE-FORMAT

从dbSNP数据库中提取基因型工具之一,这个工具可使使用者使用多种参考方式提交基因组,以进行查询,使用基因组中的位标,基因的名称,人类基因组组织(HUGO)的基因名称,或一个锚定SNP。

当面对一个基因簇时,基因组的位标是非常有用的;而对于选择兴趣区域时,使用锚定SNP是十分有用的策略;一般说,大多数查询还将会是从一个已想好的候选基因开始。也可以对特定序列上游(转录起始位点5’)或下游(poly(A)信号的3’端)范围进行限制。

如果点击“gene id”字段名,将提示输入基因ID,所获取的序列的默认范围为该基因已知最长的mRNA的refseq序列。

在基因名称中输入DNMT3A,上游5000bp和下游2500bp,然后点击“搜索”,提交的查询会返回一个人群类表,在这些人群中已经在dbSNP数据库中有该特定区域的基因型数据的报道,可通过点击人群的名称进行连接,这样可以对每个人群的详细情况进行更深入的连接。选择合适的人群如CHB后,在屏幕的页面下部可以进行参数的设置,可以对数据显示和/或采用LDselect对tag-SNP的选择进行调整。

《遗传变异分析实验指南》

本文标签: 位点基因挑选预测进行