单细胞最新入门教程系列(二):你真的会处理原始的scRNA-Seq数据吗?
01参考基因组及其注释
大多数scRNA-seq实验是使用人类或小鼠组织、类器官或细胞培养物完成的。尽管这些基因组的初稿已于大约20年前发表,但组装和注释更新却相当频繁。有两种流行的汇编文件源:UCSC(其汇编名为 hg19、hg38、mm10等)和GRC(GRCh37、GRCh38、GRCm38)。UCSC和GRC组件的主要版本在主染色体中匹配(例如hg38中的chr1=GRCh38中的chr1),但在其他重叠群和所谓的ALT位点上有所不同,这些位点在次要版本之间发生变化(例如GRCh38.p13)。基因组组装通常作为fasta文件分发:一个包含序列名称和序列的简单文本文件。基因组注释过程包括定义基因组(基因)的转录区域,以及用外显子-内含子边界注释精确的转录本,并为新定义的特征分配一种类型-例如蛋白质编码、非编码等。下面的示例显示了一个由5个转录本组成的基因:3个蛋白质编码(红色)和两个非编码(蓝色)。基因组注释通常以GTF或GFF3文件格式提供,这些文件格式按层次结构组织。每个基因都由唯一的基因ID定义;每个转录本都由唯一的转录本ID及其所属的基因定义。外显子、UTR和编码序列依次分配给特定的转录本。
图1
人类和小鼠基因组注释的流行来源是RefSeq,ENSEMBL和GENCODE。RefSeq是三者中最保守的,并且每个基因的注释转录本往往最少。RefSeq转录本ID以NM_或NR开头,例如NM_12345。ENSEMBL和GENCODE彼此非常相似,可以互换用于我们的目的。其中的基因名称以ENSG(人类)和ENSMUSG(小鼠)开头;成绩单分别以ENST和ENSMUST开头。除了基因ID之外,大多数基因还分配了一个通用名称(“基因符号”);例如,人类肌动蛋白B将具有集成基因ID ENSG00000075624和符号ACTB。人类基因名称由HGNC定期更新和定义。小鼠基因名称由类似的联盟MGI决定。目前人类基因组的ENSEMBL/GENCODE注释包含大约60k个基因,其中20k是蛋白质编码,237k转录本。大多数基因可按类型粗略分为蛋白质编码基因、长非编码RNA、短非编码RNA和假基因。在更高的分辨率下,定义了40多种生物型。基因生物型注释也经常在注释版本之间发生变化。
图2
02处理组织RNA-seq和全长scRNA-seq数据
批量RNA-seq的原始读取处理通常分两步完成:读取对齐和读取计数。这两个步骤都包含重要的警告,这些警告可以强烈影响单个基因的表达估计。可以针对基因组或转录组参考进行读比对。由于动物基因组中广泛的剪接,针对基因组的读取比对必须使用剪接感知对准器完成;两个最流行的现代工具是STAR和hisat2。典型的读取覆盖范围显示在下面的面板A中;请注意,读取覆盖率在给定基因的3'和5'末端相对均匀。有些读数与1个以上的位置完全对齐;这些读取通常称为多映射器。当与转录组对齐时,歧义要大得多,因为许多转录本彼此非常相似(例如,仅相差一个外显子);然而,即使在基因水平上也很明显(下图B)。
图4
在与基因组或转录组进行比对后,可以在基因或转录本水平上汇总读取计数。在基因组比对的情况下,最简单的策略是只计算映射到唯一位置的读取,并且只重叠一个基因。然而,这不可避免地在基因表达估计中造成了偏差(Pachter,2011)。更高级的策略包括在其对齐的特征之间拆分读取计数(例如,如果读取与3个副同源基因对齐得同样好,则每个副同源物获得计数的1/3)。链特异性RNA-seq减少了在位于相反链上的重叠特征的情况下读取分配的模糊性。有效实现上述所有计数方法的程序示例是Subread包中的featureCounts。当使用转录组比对时,读取分配的歧义太大,无法进行简单的计数。因此,使用期望最大化(EM)算法使用最大似然丰度估计来计算每个转录本和每个基因的丰度。这种方法导致将不同比例的读取分配给它映射到的特征,并大大减少与多映射器相关的偏差。然后,在基因水平上汇总分配给转录本的读段(和读段分数)。实施此策略的最广泛使用和支持良好的程序是RSEM。一般来说,这是最准确的体积RNA-seq定量方法(Pachter,2011)。
上述传统方法(比对,然后读取量化)的替代方案是基于所谓的伪比对方法。两种流行的工具,kallisto和salmon,使用非常相似的方法:
1.将参考转录组拆分为k-mers并制作De Bruijn图;
2.将RNA-seq读数转换为k-mers;
3.使用k-mers将读取分配给一个或多个转录本(“等效类”);
4.总结转录本或基因水平上的结果计数。
期望最大化算法用于找到映射到多个转录本的读取的最佳分布。这两种工具的内存和CPU效率都非常高,而且非常准确,特别是对于配对端或长单端读取。伪比对不会生成比对BAM文件,因此如果需要可视化(例如,当使用RNA-seq进行转录本注释时),也应单独进行比对。
关于组织RNA-seq定量,应注意几点。首先,通常假设测序的cDNA片段的数量与细胞中存在的RNA数量成正比。因此,当使用配对末端读取时,每个读取对仅计数一次,因为它来自相同的cDNA片段。对于像人类和小鼠这样注释良好的基因组,使用RNA-seq的单端读取是很常见的。其次,PCR重复在批量RNA-seq中通常被忽略,并且UMI的使用也不会带来实质性的好处。几项独立研究表明,重复去除或UMI的使用不会显着增加组织RNA-seq的统计能力。最后,虽然许多差异表达方法使用原始读取计数,但在进行聚类、PCA和其他类型的探索性分析时,通常使用样本内归一化。这种规范化最流行的方法是将原始读取转换为每百万分之一的脚本数(TPM)。
转换解释了两个偏差:
1)不同的样品在不同的深度测序,与基因表达差异没有直接关系;
2)长基因有望比短基因产生更多的cDNA片段。
因此,对于TPM计算,首先将原始读取计数除以有效转录本长度,其定义为转录本长度-cDNA片段大小+1。在此之后,生成的数字将线性缩放,加起来为100万。因此,特定示例的所有TPM值的总和始终等于(大约)1,000,000。
03基于液滴的scRNA-seq数据中的read比对和定量
单细胞RNA-seq数据在许多方面与bulk RNA序列不同。大多数现代scRNA-seq技术生成包含三个关键信息的读取序列:
1.识别RNA转录本的cDNA片段;
2.细胞条形码(CB),用于识别表达RNA的细胞;
3.唯一分子标识符(UMI),允许折叠PCR重复的读段。
与批量RNA-seq相比,scRNA-seq处理的RNA量要少得多,并且执行更多的PCR循环。因此,UMI条形码变得非常有用,现在在scRNAseq中被广泛接受。文库测序通常通过配对末端读取完成,一个读取包含CB+UMI(读取10x中的read1),另一个包含实际转录本序列(读取10x中的read2)。
经典的scRNA-seq工作流程包含四个主要步骤:
1.将cDNA片段映射到参考文献;
2.为基因分配读段;
3.为单元格分配read;
4.计算唯一RNA分子的数量(UMI重复数据删除)。
该过程的结果是一个基因/细胞计数矩阵,该矩阵用于估计每个基因的每个细胞中的RNA分子数量。
04Cell Ranger中的Read Mapping
Cell Ranger是处理10x Genomics Chromium scRNAseq数据的默认工具。它使用STAR对准器,该对基因组的读取进行剪接感知比对。在此之后,它使用转录本注释GTF将读段分为外显子,内渗子和基因间,以及读段是否(自信地)与基因组对齐。如果读数至少有50%与外显子相交,则读取为外显子,如果读数为非外显子且与内含子相交,则为内含子,否则为间基因(如下所示)。在读取类型分配之后,将进行映射质量调整:对于与单个外显子位点对齐但也与一个或多个非外显子基因座对齐的读取,将优先考虑外显子轨迹,并且认为读取已自信地映射到外显子轨迹并给出最大的映射质量分数。
Cell Ranger通过检查外显子和内含子与转录组的相容性,进一步将外显子和内含子自信地将读段映射到带注释的转录本。读段根据它们是有义还是反义以及它们是外显子的、内含子的还是它们的剪接模式是否与与该基因相关的转录本注释相容来分类的。默认情况下,转录组学的读取(上图中的蓝色)将转移到 UMI 计数。
当测定的输入由细胞核组成时,高百分比的读数来自未剪接的转录本并与内含子对齐。为了计算这些内含子读数,可以使用选项包括内含子运行“cellranger 计数”和“cellranger multi”管道。如果使用此选项,则任何在意义上映射到单个基因的读段-包括上图中标记的转录组(蓝色),外显子(浅蓝色)和内含子(红色)的读段 - 都将转移到UMI计数。包含内含子选项消除了对自定义“pre-mRNA”参考的需要,该参考将整个基因体定义为外显子。重要的是,如果读段仅与单个基因兼容,则被认为是唯一的映射。只有唯一的映射读取才会转移到 UMI 计数中;多重映射读取由 丢弃 Cell Ranger 。在 Web 摘要 HTML 输出中,结转到 UMI 计数的读取集称为“自信地映射到转录组的读取”。
05Cell Ranger参考准备
在我们深入研究引用处理的详细信息之前,请务必注意如何准备默认的 Cell Ranger 人工和鼠标引用。初级基因组组装版本(即没有ALT位点)用于所有版本中的比对。注释 GTF 文件使用可在此处找到的脚本进行过滤。保留以下生物型:蛋白质编码,长非编码RNA,反义和属于BCR / TCR(即V / D / J)基因的所有生物型(请注意,较旧的 Cell Ranger 参考版本不包括后者)。去除所有假基因和小的非编码RNA。 软件预打包了多个版本的 Cell Ranger 参考;2020-A 是迄今为止最新版本的参考。下面列出了以前使用的所有 Cell Ranger 单个组件和注释组合。使用每个参考文献生成的未过滤的scRNAseq表达基质应包含等于“过滤后的基因”列中的值的行数。此外,还包含人+小鼠组合参考, Cell Ranger 这对于涉及人和小鼠细胞的实验很有用。
06 UMI计数
通常所说的“UMI计数”包括读取计数,然后是基于UMI序列的PCR重复折叠。在计数 UMI 之前,Cell Ranger 会尝试纠正 UMI 序列中的测序错误。自信地映射到转录组的读段被放入共享相同条形码、UMI 和基因注释的组中。如果两组读段具有相同的条形码和基因,但它们的UMI相差一个碱基(即,汉明距离相距1),则其中一个UMI可能是由测序中的替换错误引入的。在这种情况下,支持较少的读取组的 UMI 将更正为具有较高支持的 UMI。 Cell Ranger再次按条形码,UMI(可能已校正)和基因注释对读数进行分组。如果两组或多组读段具有相同的条形码和 UMI,但基因注释不同,则保留具有最多支持读段的基因注释以进行 UMI 计数,并丢弃其他读段组。在最大读取 支持并列的情况下,所有读取组都被丢弃,因为基因无法自信地分配。 在这两个过滤步骤之后,观察到的每个条形码、UMI、基因组合被记录为未过滤的特征条形码(即基因细胞)矩阵中的UMI计数。支持每个计数的UMI的读取次数也记录在分子信息文件中。
小结
Cell Ranger 是10x Genomics提供的默认软件套件,它仍然是使用最广泛的读取对齐和定量工具。如果您缺乏生物信息学方面的经验,或者用 处理 Cell Ranger 许多其他样品,请坚持使用。我们鼓励您使用最新版本 Cell Ranger 及其附带的最新注释文件。同时,提供了 Alevin-full_decoy 极大的计算速度和对多映射器的正确处理,从而减少了定量偏差, STARsolo 同时保持了 Cell Ranger 与.对于具有终端工具经验的用户来说,它们可能是最佳选择。最后,如果您正在使用注释不佳的基因组,请确保您的基因模型包含UTR,并且您拥有组装良好和注释的线粒体。
不感兴趣
看过了
取消
不感兴趣
看过了
取消
精彩评论
相关阅读