帮助中心 广告联系

成都百姓网-人才网,招聘网,二手房网,房产网,租房网,教育网,新闻网,信息网,信息港-成都在线

热门关键词:

扩增子分析还聚OTU就真OUT了试试unoise3

来源:原创/投稿/转载 发布时间:2019-09-13

  宏基因组领域是当今热门领域,也正是方法快速发展和变革的时代。之前还把 97%聚类OTU作为扩增子行业的金标准。转眼间各位大佬纷纷向OTU聚类方法拍砖,都不建议再使用。

  之前我翻译整理的QIIME2官方帮助文档——宏基因组扩增子最新分析流程QIIME2-了解分析趋势,读过的朋友会发现,里面的每个分析流程中都不再使用聚类方法生成OTU,而是调用DADA2 [1]对原始数据进行去噪,相当于以100%的相似度聚类,而仅仅对低质量序列进行去除和校正,算法识别去嵌合等;去噪的序列直接去冗余,即Feature(特征),也不再叫OTU。换了新名字,还是很不适应,本文我们还是叫OTU吧。

  其实我理解,仍叫OTU问题也不大,本质上还是可操作分类单元。因为限技术和认识的限制,没有更好的方法,当前就是最好的方法。OTU和菌永远不是绝对1:1对应的,1个OTU可能包括多种菌,而一种菌也可以包括多个OTU(rDNA可以多拷贝,且拷贝间不一定完全相同)。

  DADA2是2016年6月发表在Nature Method上[1],截止2017年10月9日Google统计引用76次。其实原理并不复杂,感兴趣的可以阅读原文,NCBI就有免费的全文。

  图1. DADA2[1]与UPARSE[2]结果比较。结论就是比之前的UPARSE方法更好,可以看到更多真实的OTU,进一步去除假阳性、减少假阴性结果等;

  图2. 对人类怀孕期阴道卷曲乳杆菌株水平分析。可以看到6种不同的菌株不同时期的丰度变化。而之前的OTU 97%聚类是看不到株水平差异的,也是聚类最大的问题。

  在QIIME2中是推荐的方法,可以直接调用。单独使用它,推荐阅读R包主页的帮助文档[3]。

  图1. unoise2的去噪原理。左图展示,高丰度的序列周围存在很多相近的低丰度序列,大部分是由于PCR和测序过程引入的。图右为去噪去后unique序列结果。

  图2. 比较UNOISE2和DADA2在土壤样品中嵌合体预测的结果。结论就是説自己的算法比dada2考虑的更周到,结果更好。

  为了区别与之前97%聚类OTU的不同,作者将unoise3的结果命名为zotu。

  unoise3只是usearch软件中上百个功能之一,还没用过usearch,快读读《扩增子分析神器USEARCH简介

  本文的分析,是建立在扩增子分析流程基础上,想要了解每个文件的由来,请阅读《2扩增子分析流程:零基础自学-把握分析细》。

  本方法是对上面链接中分析流程中第3节——聚类,和第4节——生成OTU表的另一种选择,并对结果进行简单比较。

  具体的好用之处,需要结合具体的科学问题来讨论吧。它们最大的优势是dada2文章图2中所示的菌株水平的分析。马上一大波基于此方法的新研究,正走在发表的道路上。

  在biostack上看到了一段unoise2的介绍,写的不错,同时分享给大家[7]。

  UNOISE2:通过对Illumina测序平台结果错误纠正进行微生物多样性分析。Usearch主要三点: 1. 序列相似性比对, 2. 微生物多样性数据处理,逐渐构成了小生态,3. 序列处理瑞士军刀, 三点上竞争对手都很多, 第一点上 diamond 、RAPSearch等都是竞争对手,第二点 Usearch 紧随其后,另外还有 [QIIME 、Mothur 等老牌工具, 第三个问题太多了,主要有 seqtk 、 seqkit 等。 不过这个帖子提到的是新出炉的 UNOISE2,就是错误纠正(这类工具也很多), 包括了去除测序错误的序列,嵌合体序列,Phix 污染序列以及低复杂度序列等, 然后就可以直接构建 OTU表了,UNOISE2 流程推荐直接从最原始的序列开始,合并双端序列、过滤、去冗余、错误纠正、序列比对、构建OTU表、一气呵成。 另外:可以增加调整序列方向这一步,需要参考序列库,比如 RDP 的序列库,或者使用 Silva 的库。不得不提 Usearch 工具使用序列: 32位版本不管是工业界还是学术界随便用,免费, 64位版本需要进行收费了,学术界要比工业界便宜不少,现在刚进入 9.0版本,销售策略也进行了调整,从先前按年订阅, 变成现在 按大版本号订阅 ,更人性化了。

本网转载作品的目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。如涉及作品内容、版权等问题,请联系我们进行修改或删除!