如何从数据库挖掘基因并筛选TagSNP(2)
首页 > 学习园地 > 知识共享 > 如何从数据库挖掘基因并筛选TagSNP(2)

如何从数据库挖掘基因并筛选TagSNP(2)

上篇重点讲述了0基础使用R程序包clusterProfiler对数据库中的疾病相关基因进行富集分析,本篇主要带领大家一起学习,找到重要基因之后,如何进行TagSNP筛选。

 

技术路线

疾病相关重要通路基因及SNP分型数据下载

从上篇可以获得重要通路中富集的基因列表,通过基因列表,可以从千人基因组计划的网站下载汉族人群的SNP基因型数据,也可以从NCBI获取基因的物理位置信息,然后在ENSEMBLVCF to PED工具下载汉族人群Phase3的基因型数据。这里介绍第2种方法。

1.       NCBI获取目的基因物理位置信息

登录NCBI网站(https://www.ncbi.nlm.nih.gov/),搜索框选择“gene”,然后黏贴基因名称(例如APOE)点击search。

在搜索结果中,选择homo sapiens(human)的结果,点击进入。

继续第一个人的APOE,在弹出的详细介绍中,找到基因组位置,找到APOE基因在Grch38.0基因组中的物理位置。例如:APOE在Grch38.0基因组物理位置为chr19: 44905796..44909395,略微修改一下格式:19: 44905796-44909395

请注意:物理位置输入均为英文输入法,否则在下一步会出错。

2. 利用ensembl在线工具获得Haploview4.2软件输入格式文件

Haploview4.2软件导入基因型文件格式为ped文件,因此根据基因物理位置利用ensembl在线工具Vcf to Ped转换工具获取汉族人群的目的基因SNP基因分型信息。具体操作如下:

a.进入Ensembl官网(http://asia.ensembl.org/index.html) ,点击“tools”,选择vcf to ped converter工具。

 

 

也可以直接点击链接http://asia.ensembl.org/Homo_sapiens/Tools/VcftoPed到这个转换工具。给此次转换命名一个project名称,如APOE;将上一步查询到的基因物理位置输入到region lookup对应的文本框;Select one or more phase 3 populations处选择CHB/CHS均可;Base format 小编习惯选NumbersBiallelic only处打钩,否则Haploview也会报错。其他参数默认默认,点击run,等待job运行结果即可。

运行完成以后的页面是这样子的。点击view result,弹出数据文件下载按钮。

两个download的都需要下载下来,两个文件一个是.info文件,存储的是SNP的编号、位置信息,一个是.ped的压缩文件,下载后需要将该文件解压缩后,与info文件放在同一个目录下。

3.       SNP功能注释

将上一步info文件中的SNP信息在VEP在线注释工具(http://asia.ensembl.org/Multi/Tools/VEP )中进行功能注释。给自己此次的注释工作起个名字,将SNP info中的rs号列表黏贴在input data的方框里。其他默认参数即可,下拉点击run按钮即可。

 

注释完成的界面如下所示,查看结果点击“view result”。

 

结果界面如下所示,在Download选项,选择txt格式下载,拖动到excel表格中可以规范打开文件。

 

筛选注释为错义突变、提前终止、剪接位点、调控区变异(regulatory_region_variant)等功能变异的SNP位点作为下一步筛选TagSNP的目标筛选范围。可在上一步下载的infoped文件中对应选择删除非功能SNP,需要同时删除infoped文件中对应的数据,也可以在下一步haploview软件中只选择功能SNP位点进行TagSNP计算。

 

4.       TagSNP筛选

安装Haploview4.2软件后,按照下列操作步骤获得TagSNP及其代表的侧翼SNP位点信息。

a.   打开Haploview软件,会自动弹出一个欢迎界面,默认第一种输入格式linkage format,是我们所需要的输入格式。如果是已经运行,想打开新的数据,请点击File,选择open new data。选择linkage Format格式,Data File点击Browser选择之前保存的ped文件,info文件可以自动识别进来。也可Browser手动选择info文件。其他参数不变,点击OK导入数据。

b.    导入数据后,进入check marker界面。根据哈温平衡的cutoff值,设为0.05,MAF(minor allele frequency)cut off值也设为0.05,其他可以默认,点击rescore markers,自动筛选符合条件的SNP;根据筛选出的功能SNP编号,手动取消那些非功能SNP位点。全部选择完成后,点击Tagger。

c.TagSNP筛选及结果导出 。这里表格区域显示在check markers筛选的SNP,设置筛选条件,一般默认是r2阈值为0.8,其他参数可不调整。确认好参数后,点击run tagger,弹出筛选结果。

Run tagger结果界面如下所示,点击Dump tags file,自己命名文件名,后缀为.txt,点保存可获得TagSNP列表。在File中选择“Export current table to TEXT”,可同时输出TagSNP及其代表的多个SNP对应关系。

 

通过这两期文章,您是否已经掌握了如何筛选基因及TagSNP呢?