STRUCTURE2.3.1软件使用方法
首页 > 学习园地 > 知识共享 > STRUCTURE2.3.1软件使用方法

STRUCTURE2.3.1软件使用方法

STRUCTURE是对群体进行基于数学模型的亚群划分一,并计算材料相应的Q值(即第i材料其基因组变异源于第K群体的概率)。

分析的基本原理是,首先假定样本存在k个等位变异频率特征类型数(即服从Hardy-Weinberger平衡的亚群,这里k可以是未知的),每一亚群SSR位点由一套等位变异频率表征,将样本中各材料归到(或然率用Bayesian方法估计)第k个亚群,使得该亚群群内位点频率都遵循同一个Hardy-Weinberger平衡。

具体分析过程是,先设定群体数目k=2到k=10,并假定位点都是独立的,将开始时MCMC的不作数迭代设为100,000次,再将不作数迭代后的设为100,000次,3个以上重复的K值对应的LnP(D)值平均值及其标准差,然后依据似然值最大的原则或计算ΔK峰值拐点处选取一个合适的K值。

1.软件下载安装。可在http://pritch.bsd.uchicago.edu/structure.html官网下载最新版本。老版本的2.0软件需要Java Runtime,所以需要下载安装JRE1.5以上版本。官网还可以下载到命令行控制运行的版本以及适合于大规模SNP数据的FastStrucuture软件。在此,先介绍一下在windows系统下,针对低通量弱连锁的标记基因型数据的使用方法。

2.数据格式。数据格式如下图所示,可识别单倍体、二倍体和多倍体数据,格式就是以每个材料有几行进行区分。基因型数据可从1开始的数字表示不同的基因型,缺失数据用-1表示。在Excel中整理好格式以后,复制粘帖至txt中保存。需要注意的是:有时候数据无法导入软件或者识别总是少一行,这种情况下请检查a.在基因型数据中是否有快捷保存时候误输入的S字母;b.在数据第一行最后一个数据后加一个空格。

 

 

3.数据导入。打开STRUCUTURE.exe应用程序,File菜单下选择Open data file,在弹出的对话框中找到自己存储数据的文件,点击打开,打开成功后,会弹出一个对话框,提示导入数据的存储路径以及行数和列数。

 

4.新建Project。在File菜单下,选择New Project,弹出对话框,设置参数。

 

在对应的位置填写新Project的名字、存储的路径和数据文件。设置好之后,点击next弹出对话框Step2,根据数据输入样本数、数据的倍性、位点数目和缺失数据表示方法。然后点击next。

 

弹出如下对话框Step3

Step3对输入数据的行进行定义,根据实际导入数据进行选择。比如,第一行包括了标记名称,可以第一项Row of marker names前面选中。然后点击Next。

 

Step4是对数据的列进行定义,根据实际导入数据进行选择,比如第一列包括了样本编号,所以第一项Individual ID for each individual前面选中。选中之后,点击Finish,导入数据成功。

点击Proceed。Project创建成功。

5.参数设置。Parameter Set菜单下,选择New,弹出对话框。

 

Run length设置。Burnin Period设为50,000,MCMC Reps设为50,000,其他都可以选择默认设置。点击OK,给新的参数集设定个名字,点击OK。

6.运行。在Project菜单下,选择Start a job,弹出对话框。

选中参数集,设置K从1到10,Number of Iterations可以设为3-5均可,表示每个K值计算3-5次重复,K从1变化到10.。设置完成后,点击Start运行。如果无法运行程序,可关闭软件之后,再在File菜单下找到open project,根据文件路径找到建立的project,再次重复运行start a job的操作。只要数据没有问题,是可以正常运行的。

正常运行的状态如下图所示。

 

运行完之后,参数集的文件夹下会出现一个Results的文件夹,

 

运行完毕之后,选择Simulation Summary,将右边的K值对应的LnP(D)和Var[LnP(D)]在file中另存为text文档(Save as text file)。