这篇文章上次发出后,有朋友留言说到底要测几个重复?其实也没有定论,有钱多多益善。只是需要知道
(资料图片仅供参考)
重复少时,发现的差异基因会有不少假阴性,获得不了结果时,可尝试加测一些,可获得更稳定的结果。
重复少时,抽样随机性大。如下图随机抽取2个生物重复获得的差异基因数目最多时是最少时的5倍以上;随机抽取3个生物重复获得的差异基因数目最多时是最少时的3倍左右。
2016年英国邓迪大学的Geoffrey J Barton教授在RNA发表一篇文章专门评估这一问题。作者对野生型和snf2突变型酵母样品分别测序了48个生物学重复;质控后,野生型样品保留42个生物学重复,突变型样品剩余44个生物学重复。
在控制假阳性率为0.05的标准下,用所有可用生物重复计算出的差异基因定义为该差异基因鉴定工具的金标准差异基因集。
作者评估了11个常用的差异基因分析工具,性能最好的是edgeR, DESeq2和limma。
下面以edgeR为例展示了不同生物学重复数目对鉴定差异基因的影响。
图A展示了,在控制相同的假阳性率水平下,不同的生物学重复鉴定出的差异基因数目 (nr: number of biological replicates)。作者从所有生物重复中随机抽取2组、3组、4组…生物学重复,分别计算差异基因,发现:
差异基因的数目整体与生物重复数量正相关。
差异基因数目的稳定性与生物重复数量负相关;
生物重复较少时,不同的抽样导致的差异基因数目波动较大;
生物重复较多时,检测出的差异基因数目受抽样影响较小,体现在柱状图数据分布更集中 (可视化之为什么要使用箱线图?)。
图B展示了,不同生物学重复与鉴定的差异基因的真阳性率的关系。不同的实线代表不同的差异基因筛选倍数变化(T=|Log2(FC)|)条件下的真阳性率。虚线代表假阳性率,近乎一条直线,说明edgeR的假阳性率控制的还是比较好的,比较低,且不受生物重复数影响。如果筛选阈值比较高,比如4倍差异(T=2)时,较低的重复数即可获得较高的真阳性率。而筛选阈值较低(T=0)时,真阳性率受生物学重复影响较大;生物学重复越少,真阳性率越低。常规筛选标准2倍差异(T=1)时需要20个生物重复才能达到与4倍差异相同的真阳性率。
图C则是图B的另一种展现,横轴是筛选倍数阈值 (T=|Log2(FC)|)。蓝色虚线代表3个生物重复条件下的假阳性率,在常规筛选标准2倍差异(T=1)时,假阳性率已趋近于0。不同颜色的实现代表不同生物重复下的真阳性率随筛选阈值差异倍数的变化,整体呈现正相关;且生物重复越多,真阳性率越高,并受筛选阈值影响越少。
图D展示了真阳性、真阴性 (非金标准差异基因定义为真阴性(无差异)基因)、假阳性、假阴性基因数目随生物重复数的变化。生物重复越多,漏掉的差异基因(假阴性基因)越少。
原文:https://rnajournal.cshlp.org/content/22/6/839.long
这么多重复测序起来需要多少钱?有没有便宜的方法?见遗传所屠强研究组开发Decode-seq方法显著提高差异表达基因分析的准确性。
Nature重磅综述 |关于RNA-seq,你想知道的都在这
39个工具,120种组合深度评估 (转录组分析工具哪家强)
DESeq2差异基因分析和批次效应移除
转录组分析的正确姿势(第三版)
120分的转录组试题(第三份答案)
往期精品(点击图片直达文字对应教程)后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集