定义
系统发育进化树 (Phylogenetic tree): 一般也叫系统进化树,进化树。它可以利用树状分支图形来表示各物种或基因间的亲缘关系。一般研究对象是碱基序列或氨基酸序列,通过数理统计算法来计算生物间进化关系。最后,根据计算结果,可视化为系统进化树。
构成
image.png
分类
根据是否指定了根节点,系统进化树可以分为有根树和无根树。
有根树指定了根节点,树中可以看出各个节点的距离和祖先节点以后各个分枝分化的先后关系,因此可以用于分化时间的推断;一般选择所研究的材料的最近的共同近缘种作为外群。
无根树没有指定祖先节点,只能看出各个节点的拓扑结构和相对距离。
image.png
进化树评估
- Bootstrap检验
对于进化树评估一般会使用 Bootstrap 进行检验。
Bootstrap检验,自举法检验,也叫自展,自助法。其实就是放回式抽样统计法的一种,通过对数据集多次重复取样,构建多个进化树,用来检查给定树的分枝可信度。
重复取样值
那么重复取样的次数会在建树时设置,现在一般文章要求Bootstrap 取样值 >1000。Bootstrap value 阈值
虽然根据严格的统计学概念,自展值需要要大于95%才较为可信。
然而在实际应用中,我们一般认为结点的 Bootstrap value > 70,这个分支就是可靠的。特别是微生物等相似度比较大的分类中,一般大于50%就认为可信(小于50%不会显示)。
- Bootstrap value 与分支
如果低 Bootstrap value 更靠近分支末端,代表相似度太高而很难区分
如果低 Bootstrap value 更靠近根,代表相似度太低
建树方法
image.png
一般情况下,若有合适的分子进化模型可供选择,用最大似然法构树获得的结果较好;对于近缘物种序列,通常情况下使用最大简约法;而对于远缘物种序列,一般使用邻接法或最大似然法。对于相似度很低的序列,邻接法往往出现长枝吸引(branch attraction)现象,有时严重干扰进化树的构建。对于各种方法重建进化树的准确性,Hall (2005)认为贝叶斯法最好,其次是最大似然法,然后是最大简约法。其实如果序列的相似性较高,各种方法都会得到不错的结果,模型间的差别也不大。邻接法和最大似然法是需要选择模型的。蛋白质序列和DNA序列的模型选择是不同的。蛋白质序列的构树模型一般选择Poissoncorrection(泊松修正),而核酸序列的构树模型一般选择Kimura2-parameter (Kimura一2参数)。如果对各种模型的理解并不深入,最好不要使用其他复杂的模型。参数的设置推荐使用缺省的参数。
————————————————
版权声明:本文为CSDN博主「Cccrush」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/cccrush/article/details/90695891
进化树构建的方法原理及检验Cccrush的博客-CSDN博客构建进化树的三种方法
进化树枝长的意义
了解进化树枝长意义之前,首先需要了解系统进化图的种类,不同类型的进化树, 其枝长的意义是不同的。系统发育树一般包括cladogram, phylogram和chronogram。Types of phylogenetic tree diagrams介绍了三者之间的差异。
- 首先,cladogram的枝长是没有任何意义的,因此这种图的枝长可以以任何长度形式表示,但是一般情况为了观察和美观都是等长绘制。了解如何如何构建cladogram有助于理解:PDF:https://www.bu.edu/gk12/eric/cladogram.pdf Video(youtube): link
- Chronogram是经过分子钟校订的进化树,因此枝长表示的是时间。
- Phylogram(系统发育分析中一般绘制的都是Phylogram)。这里需要考虑的是不同的建树方法得到的枝长意义不一。
- ML/BI:每个位点的替代数(numbers of substitutions per site)
- NJ:遗传距离(genetic distance)
-
MP:性状状态变换的步骤数(numbers of character-state changes)
image.png
基于SNP构建进化树
其实基于SNP进行进化树的构建的过程相当简单,每个样本的每个位点连起来就是一条序列,因为每个样本的SNP数目相同,所以比对这一步就可以直接省去了。
需要准备两个软件:TASSEL(https://bitbucket.org/tasseladmin/tassel-5-standalone/downloads/?tab=tags)和MEGA(http://www.megasoftware.net/)
VCF转MEGA格式。用TASSEL打开VCF文件,另存为Phylip格式(Save As — Phylip(Interleaved)),然后用MEGA7把Phylip文件转换成MEGA格式(File — Convert File Format to MEGA — 选择刚才转出的Phylip文件按提示操作存成.meg文件),前两行为文件头信息,无实际意义,但是必有。“#33-16”表示样本编号,与fasta文件的格式不同,mega格式样本的起始不是“>”而是“#”,接下来便是该样本的SNP连接成的序列信息。
image.png
1、mega文件导入:
File — Open A File/Session — 选择要导入的文件,选择数据类型(如果是SNP即为Nuceotide Sequences),提示Protein-coding nucleotide sequence data时,选择No,即不把DNA序列翻译成蛋白序列构建进化树
image.png
2、系统进化树的构建
选Phylogeny选项卡,在可选的方法中选择一种方法进行系统进化树的构建,种内材料一般选择NJ法即可,属内种间或属以上材料可以用ML(maximum likelihood tree)法(ML法计算之前,可进行最优模型的选择:Models — Find Best DNA/Protein Models,使用选出的最优模型进行ML树的构建),下面以NJ法为例进行说明。
参数设置,主要填写Bootstrap值,一般选择500或1000次;Model一般用Kimura 2-parameter Model(K2),如果K2模型运行不了,可以换成p-distance模型;Gaps/Missing Data Treatment选择Partial deletion或者pairwise deletion,选择complete deletion时带有缺失值的标记都会被删除,所以必须谨慎;Site Coverage Cutoff与我们常说的完整度相同,一般填写成我们过滤标记时使用的完整度,上述参数设置完成后,点击compute即可。
image.png
3、进化树的着色
用MEGA完成进化树的构建后,可以将结果保存为nwk格式(File — Export Current Tree(Newick)),保存original树(推荐)时,既输出枝长,又输出bootstrap值,而bootstrap consensus tree则只能输出bootstrap值。
获得nwk格式的进化树后,需要对其进行展示,以便从直观上判断材料间的聚类关系,界面版的MEGA自带简单的展示功能,可以对进化树进行展示,但其功能较为简单,无法满足着色、添加额外信息等较为个性化的要求。从功能的丰富度来说,iTOL(https://itol.embl.de/)、EvolView(http://www.evolgenius.info/evolview/)、ggtree(https://github.com/GuangchuangYu/ggtree)应当是功能较为齐全的软件,其中,ggtree是R软件包,可以在本地操作,但需要编写代码,使用起来并不十分方便。
判断NWK格式是有根树还是无根树
The Newick tree format (washington.edu)
利用SNP数据构建Phylogenetic tree - 知乎 (zhihu.com)
群体结构分析三种常用方法 (下篇) | Universe Biology Girls and Boys
iTOL进化树调图细节记录 - Bioinfarmer - 博客园 (cnblogs.com)