SNP(单核苷酸多态性)Meta分析:一文搞定模型构建与数据处理
很多同学来问:学习SNPmeta分析过程中,最大的困惑就是数据的处理:看别人文章里用到很多遗传模型,这些模型代表什么意义、为什么要这么做、又是如何实现的(模型如何构建、数据如何处理)???求助啊小编!其实很简单,今天这篇文章就用最简单易懂的方式解释一下。阅读本文,你可能需要一下基础:(1)掌握一般的Meta分析(二分类变量的Meta分析)的流程,特别是数据提取和处理过程;(2)单核苷酸多态性(SNP)的入门知识及其命名方法。如果以上知识不清楚,请先稍微学习哦!有了基础,再来类比SNP Meta,轻松得多。首先,一句话说明:SNP Meta分析,从方法学上来说与二分类变量的Meta分析是类似的,没有新的东西,大家可以类比。唯一差别就是提取的数据不同,而遗传模型的作用,就是把这些不同的数据转化成二分类变量的形式,以便下一步运算和处理。请读者牢记这一点,下面的讲解过程中自己注意类比和思考;听完下面的讲解,再回过头来体会一下这句话!下面以实例讲解,数据来源:Yang Y, Wang W, Liu G, et al. Association of single nucleotidepolymorphism rs3803662 with the risk of breast cancer[J]. Scientific Reports, 2016, 6.这篇文章研究的SNP名叫rs3803662,其实就是DNA上的一个位点,核苷酸可以是T或者C。可以将T/C理解为两种等位基因,那么单个个体的基因型就有3种:CC,CT,TT。(注:一条染色体上DNA有双链,SNP的表示中,统一只写出正义链,例如我们说某位点是C,就是指该染色体上正义链是C、反义链是G,反义链是不用写出的哦,所以我说某个人的基因型是CC,表示他两条染色体都是正义链是C、反义链是G,而不是说他的某条染色体上的两条DNA链都是C哦。这一点和本文的数据处理过程关系不大,为了清晰理解,还是说明一下~)。好了,继续通过这篇文章的实例进行讲解。选题:rs3803662多态性与乳腺癌风险的关系。检索、文献筛选、数据提取过程就不讲了,如上述,请类比二分类变量的Meta分析。SNP Meta纳入的原始文献是一般是病例对照研究(case-control),如果是一般的二分类变量Meta分析,提取的数据如果是下表这样的(2x2表格数据),如果是这种数据,大家是不是就能轻易的放到stata或者revman中运算,做出森林图了呢?但是,实例文章提取出了每篇文献的原始数据,如下表。因为单个个体的基因型有3种(CC/CT/TT),是三分类变量,和我们想要的不一样,怎么办呢?这里就到了关键之处,遗传模型的应用!还记得本文开头说的吗,遗传模型在这里的作用,就是把三分类变量(表2,一行6个数据)转化成二分类变量(表1,一行4个数据)的形式。具体怎么操作呢?就是把CC/CT/TT这些东西,和暴露/非暴露联系起来呗!实例文章中,以C为野生型,T为突变型。突变/野生和暴露/非暴露如何扯到一起呢?我们以显性模型(Dominant model)为例讲解。我们可以理解为:受突变基因影响并表现出性状的,定义为暴露组,即暴露于某个危险因素(在这里是遗传因素,确切的说是rs3803662多态性中突变型T的影响)。因为是显性模型,所以TT和CT都表现出突变性状(暴露于T,受T影响),CC为野生性状。根据我们的定义,TT+CT为暴露组,CC为非暴露。这样,我们就可以将表2转化为表1啦!如下图哦,变成了二分类变量,下一步大家就会了吧?再来解释一个,隐性模型(Recessive model)。定义:受突变基因影响并表现出性状的,定义为暴露组,即暴露于某个危险因素(在这里是遗传因素,确切的说是rs3803662多态性中突变型T的影响)。因为是隐性模型,所以只有突变纯合子TT表现出突变性状(暴露于T,受T影响),CC和TC为野生性状。根据我们的定义,TT为暴露组,TC+CC为非暴露。好啦,模型构建和数据处理讲到这里,是不是已经很清楚啦!其他的模型,大家自己体会吧,不再一一讲解啦。答:一般的文献中,会同时采用上表6种模型的前五种或前三种;也有部分文献同时采用前3种+加性模型(如我们的案例文献)。答:各个模型是如何构建的,代表什么含义,上述已经讲解的很清楚啦~前5种模型的意义都很好理解,容易解释;加性模型如何解释,是个难点哦,欢迎大家留言交流讨论~做这么多模型,我认为意义至少有二:(1)多个模型分析,若该SNP位点与乳腺癌风险有关系,还能了解大致遗传方式。(2)万一某个模型结果是阴性(没有关联)呢?多做几个模型、多做点亚组,尽量找出阳性结果,文章的意义不就出来拉~哈哈。个人认为较有说服力的还是等位基因模型。3、例如本文的rs3803662位点,可以是C或T,如何确定哪个是野生、哪个是突变?答:一般选择频率低的那个等位基因当作突变型(最小等位基因频率,MAF)。怎么判断哪个是频率较低的呢?可以看纳入原始文献的数据,也可以参考NCBI的SNP数据库。例如实例文章,若根据纳入的原始文献,多数文献报道T的频率较低,所以选择T为突变型。
想知道学会这个的后果吗?小编告诉你,学会了这个,后果很严重,不信你看看。国内某专家201-2016发表SNP相关meta。