转:16S基本分析点

8/23/2016 8:35 PM


基本介绍

为什么选择16S测序?

细菌中唯一的细胞器是核糖体,它的沉降系数是70S,由50S的大亚基和30S的小亚基组成,其中rRNA按沉降系数可分为5S、16S和23S三种,5S和23S rRNA在核糖体大亚基中,16S rRNA在核糖体小亚基中。5S rRNA的序列长度最长达400nt,信息量少;23S rRNA的序列长度长达2900nt,序列太长,测序通量、深度等要求高;而16S rRNA序列长度适中,约为1542nt。
沉降系数:离心法时,大分子沉降速度的量度,等于每单位离心场的速度。沉降系数10-13秒称为一个Svedberg单位,简写S,量纲为秒。

16S测序区域如何选择?

16S rDNA是编码16S rRNA的DNA序列,存在于所有的细菌和古菌的基因组中,一般由9个保守区和9个可变区组成,保守区在细菌间无显著差异,可用于构建所有生命的统一进化树,而可变区在不同细菌中存在一定的差异,可将菌群鉴定精细到分类学上属,甚至种的级别。

16S rDNA测序区域与哪些因素有关?

  • 引物序列, 16S目的片段的引物是基于保守区的序列设计的,但是由于保守序列的碱基存在多态性,可能会忽略一部分微生物,因此要选用覆盖率高的引物进行目的片段的扩增;
  • 测序平台, Illumina MiSeq/HiSeq测序平台的架构决定其短读长,它的读长最长为2*300pb,限制16S只能进行单V区、双V区或者三V区的测定;
  • 目的区域中已知序列的多少, 扩增的目的片段与数据库中已知的片段进行比对,如果数据库中该区域已知片段很少,很不全面,导致测得的序列比对不上,微生物的多样性随之降低;
  • 不同区域中鉴定物种的准确性, 不同区域的物种比对到RDP数据库时,鉴定物种的准确性也是测序区域选择的约束条件。单个区域的检测发现,V2区和V4区在各个水平上的精确度最高,V5、V6、V7、V8区在门、纲水平上的精确度也较高,与V2区和V4区相似。

OTU是什么

OTU(operational taxonomic units),即操作分类单元。通过一定的距离度量方法计算两两不同序列之间的距离度量或相似性,继而设置特定的分类阈值,获得同一阈值下的距离矩阵,进行聚类操作,形成不同的分类单元。

OTU在16S测序中有何用

高通量测序得到的16S序列有成千上万条,如果对每条序列都进行物种注释的话,工作量大、耗时长,而且16S扩增、测序等过程中出现的错误会降低结果的准确性。在16S分析中引入OTU,首先对相似性序列进行聚类,分成数量较少的分类单元,基于分类单元进行物种注释。这不仅简化工作量,提高分析效率,而且OTU在聚类过程中会去除一些测序错误的序列,提高分析的准确性。

OTU如何聚类

OTU聚类的方法多种多样,如Uclust、cd-hit、BLAST、mothur、usearch和 prefix/suffix,这些聚类方法均可以在QIIME软件中实施。不同聚类方法基于不同的算法,得到的聚类结果虽然不同,但是大体的聚类流程都是一致的,挑选非重复序列,与16S数据库比对,去除嵌合体序列,序列之间距离计算,97%相似OTU聚类。

嵌合体序列是RCR扩增时,两条不同的序列产生杂交、扩增的序列

OTU跟物种的关系

OTU聚类后,挑选出每个OTU中的代表序列,与RDP、Sliva或GreenGene等数据库进行比对,进行物种注释。OTU和物种是映射关系,它们一一对应或多对一关系


Alpha多样性

Alpha多样性:指一个区域或生态系统内的多样性,用来描述单个样品的物种多样性;Alpha多样性指数主要用来表征三方面信息:物种丰度、物种多样性和测序深度。

  1. 物种丰度
  • observed_species指数:表示实际观测到的OTU数量;
  • chao1指数:评估样品中所含OTU的总数。其公式为:

    Schao1:估计的OTU数量;
    Sobs:实际观察到的OTU数量;
    n1:只含一条序列的OTU的数量;
    n2:含两条序列的OTU的数量。

  1. 物种多样性
  • Shannon指数:包含着种数和各种间个体分配的均匀性两个部分。如果每一个体都属于不同的种,多样性指数就最大;如果每一个体都属于同一种,则其多样性指数就最小。用来估算微生物群落的多样性,shannon值越大,物种多样性越高。其计算公式:

    Sobs:实际观察到的OTU数量;
    ni:第i条OTU的序列数量;
    N:所有的序列数。

  • Simpson指数:随机抽取的两个个体属于不同种的概率,Simpson指数越大,物种多样性越高。其计算公式:

    Sobs:实际观察到的OTU数量;
    ni:第i个OTU的序列数量;
    N:所有的序列数。

3 . 测序深度

  • Coverage:反应测序深度,goods_coverage 指数越接近于1,说明测序深度已经基本覆盖到样品中所有的物种。其计算公式:

    Cdepth:goods_coverage指数表示测序深度;
    n1:只有含一条序列的OTU数目;
    N:为抽样中出现的总的序列数。

如何展现Alpha多样性指数

Alpha多样性指数数值可以以表格的形式展现,还可以以图表的形式展现。随着抽取的reads条数的增加,曲线逐渐趋平,表明测序量是足够的,可以覆盖样品中的大部分微生物;如果曲线呈现上升趋势,则需要增加测序量,保障测序结果的代表性。简单来说,其实Alpha多样性指数就是衡量测序量是否足够的一个标准。它们大都长成这个样子。


Beta多样性

Beta多样性:指不同生态系统之间的多样性比较,用来比较组间样品在物种多样性上存在的差异。Beta多样性是基于不同样品序列间的进化关系及丰度信息来计算样品间距离,用来描述不同样品间的相似性和差异性。
样本间距离是指样本之间的相似程度,可以通过数学方法估算。如前所述,样本间越相似,距离数值越小。计算微生物群体样本间距离的方法有多种,例如,Jaccard、Bray-Curtis、Unifrac等。这些距离算法主要分为两大类别:OTU间是否关联OTU是否加权(表)

\ 基于独立OUT 基于系统发生数
加权 Bray-Curtis Weighted Unifrac
非加权 Jaccard Unweighted Unifrac
  • 基于独立OTU vs 基于系统发生树
    二代测序当中,我们对16s rDNA某个区域进行测序后,会根据序列的相似度定义OTU。这个时候,基于独立OTU的计算方式认为OTU之间不存在进化上的联系,每个OTU间的关系平等。而基于系统发生树计算的方法,会根据16s的序列信息对OTU进行进化树分类,因此不同OTU之间的距离实际上有“远近”之分。

  • 加权 vs 非加权
    利用非加权的计算方法,主要考虑的是物种的有无,即如果两个群体的物种类型都一致,表示两个群体的β多样性最小。而加权方法,则同时考虑物种有无和物种丰度两个问题。如果A群体由3个物种a和2个物种b组成,B群体由2个物种a和3个物种b组成,则通过非加权方法计算,因为A群体与B群体的物种组成完全一致,都只由物种a和b组成,因此它们之间的β多样性为0。但通过加权方法计算,虽然A与B群体的组成一致,但物种a和b的数目却不同,因此两个群体的β多样性则并非一致。

在宏基因组和16s测序的分析中,使用最多的距离算法主要有Bray-Curtis和Weighted 及Unweighted Unifrac。因此,下面我们就这几种常用的微生物多样性算法的特点和应用范围进行简单比较。

  • Bray-Curtis距离 vs Unifrac距离
    Bray-Curtis距离和Unifrac距离的主要区别在于计算β值的时候是否考虑OTU的进化关系。根据表2,显然,只有后者是有考虑。这会影响到它们的:数值表述意义不同:虽然两种方法的数值都是在0-1之间,但具体所表示的生物学意义却不一样。在Bray-Curtis算法中,0表示两个微生物群落的OTU结构(包括组成和丰度)完全一致;而在Unifrac中,0更侧重于表示两个群落的进化分类完全一致;实际应用的合理性:在实际微生物研究中,如果样本间物种的近源程度较高(温和处理样本与对照样本,生境相似的不同样本等),利用Bray-Curtis这种把OTU都同等对待的方法,更有利于发现样本间的差异。而Unifrac则更适合用于展示此类样本的重复性。

  • Weighted Unifrac距离 vs Unweighted Unifrac距离
    Unifrac除了具有考虑OTU之间的进化关系的特点之外,根据有没有考虑OTU丰度的区别,Unifrac分析可以分为加权(WeightedUunifrac)和非加权(Unweighted Unifrac)两种方法。它们的不同在于:数值表述意义:Unweighted UniFrac只考虑了物种有无的变化,因此结果中,0表示两个微生物群落间OTU的种类一致。而Weighted UniFrac则同时考虑物种有无和物种丰度的变化,结果中的0则表示群落间OTU的种类和数量都一致。实际应用的合理性:在环境样本的检测中,由于影响因素复杂,群落间物种的组成差异更为剧烈,因此往往采用非加权方法进行分析。但如果要研究对照与实验处理组之间的关系,例如研究短期青霉素处理后,人肠道的菌落变化情况,由于处理后群落的组成一般不会发生大改变,但群落的丰度可能会发生大变化,因此更适合用加权方法去计算。

多样性分析方法

  1. Unifrac分析
    基于系统进化,在 OTU水平上反应不同组间微生物群落结构的差异。若两个微生物群落完全相同,它们是没有各自独立的进化过程,UniFrac的值为0;UniFrac值越大,说明不同微生物群落在进化过程中变异越大,两个微生物群落在进化树中完全分开,则它们是两个完全独立的进化过程,UniFrac值最大,为1。

    图A和图B是Unifrac的两种展现形式,样品越靠近说明两个样品的组成越相似。

  2. PCoA分析
    PCoA(principal coordinate analysis)主坐标分析,基于降维的方法,在尽可能保留原始信息的情况下,找出前两种影响分组的信息,研究其对样品分组的贡献率,将样品的相似性或差异性可视化,这两个坐标轴是没有任何实际意义的。分析结果展示如下,如果两个样品间距离较近,则表示这两个样品的物种组成比较相近。

    横坐标即第一主坐标,表示对样品分开的贡献率是60.91%;纵坐标即第二主坐标,表示对样品分开的贡献率是14.06%。箱线图的添加是本图的一个特色,直观地展现样品在第一主坐标和第二主坐标的分布情况。

  3. NMDS分析
    NMDS与PCoA分析的意义一样,都 是用来展示样品间差异和相似的方法,如果两个样品距离较近,则表示这两个样品的物种组成比较相近。不同之处是两种展现形式是基于不同的算法。

    横纵坐标是基于进化或者数量距离矩阵的数值在二维表中成图,不同颜色代表不同分组,点代表样品,点与点之间的距离表示差异程度。

  4. Anosim分析
    相似性分析Anosim分析是一种非参数检验,用来检验组间(两组或多组)的差异是否显著大于组内差异,从而判断分组是否有意义。首先利用Bray-Curtis算法计算两两样品间的距离,然后将所有距离从小到大进行排序。

    横坐标表示所有样品(Between)以及每个分组(A、B),纵坐标表示unifrac距离的秩。Between组比其它每个分组的秩较高时,则表明组间差异大于组内差异。R介于(-1,1)之间,R大于0,说明组间差异显著;R小于0,说明组内差异大于组间差异,统计分析的可信度用P表示,P< 0.05表示统计具有显著性。

  5. UPGMA层次聚类
    假设在进化过程中所有核苷酸(氨基酸)的变异率相同,基于群落组成和结构的算法计算样本间的距离,根据β多样性距离矩阵进行层次聚类分析,最后通过UPGMA构建系统进化树。此树可以直观的反应样本间进化的差异。

    UPGMA层次聚类分析。树枝不同颜色代表不同的分组。

Beta多样性分析还有什么要点?

上面的Unifra、PCoA、NMDS、Anosim和UPGMA分析均可做考虑物种丰度(加权,Weight)和不考虑物种丰度(非加权,Unweight)的两种展现形式,可以根据你的研究目的选择合适的计算方法。


---------本文结束,感谢您的阅读---------