复制转录翻译的模板-RNA-seq基础知识

日期：2023-03-11 12:39:36　/ 人气： 1379 / 发布者：成都翻译公司

id，例如对于可以翻译成蛋白的转录本，都会以NM_开头如NM_015658；对于不能翻译的转录本，都会以NR_开头如NR_027055；不同注释的情况如下图(ps:注释的数据库来源不一样，编号不一样)gene注释；对gene的不同转录本进行注释，一般是类似uc004cpf这样的名称。

单端测序和双端测序

单端测序只有一个测序引物，所以PCR只能沿着这个引物的方向进行，所有的reads只能在一个方向上读取。但是，测序的质量会随着测序的进行而下降，因此随着测序的进行，reads会更加不准确。一种解决方案是双端测序。对于500 bp的序列，单端测序的下游质量会很差，但是从两个方向测量250 bp-300 bp，然后将它们拼接在一起可以大大提高测序。准确率。双端测序接头的序列更复杂。首先，要分别进行两个方向的测序，需要两个不同方向的测序引物（下图中的Rd1 SP和Rd2 SP）；其次，为了区分两个方向的reads，

双端测序中每个单独的Read的长度是整个待测序列的一半以上，因此可以根据两个Reads的重叠部分进行拼接

为什么会有双端这样的技术发明？

①假设一个DNA片段刚好跨越了重复序列区（下图左侧）和唯一序列区（下图右侧）。如果只读取Single-Read，只会得到红色实线的串口信息，即ATATTATAT。接下来，当我们想要将这个read与参考基因组进行比较时，就会出现一个问题：这个read是来自红色实线的位置还是红色虚线的位置？我们可以使用 Paired-end 技术来解决这个问题。由于Paired-end read之间的距离是已知的（这里我们设置为34bp），我们可以先定位绿色read的位置，正确定位左边红色read之间的AT位置，不要误会。在红色虚线位置判断。如下所示：

②由于单端测量的错误率太长，错误率会增加，像第一代测序一样，可以测量几百个bp的长度，但序列越晚，条带越混杂，不清楚。二代测序也是如此。, 600bp 的单端测量会很不准确，双端 300bp 测序会准确得多。

路口

序列可能有 4 到 500 bp 长，每边有 120-150 bp。结点是双端测序中间未检测到的区域。

基因丰度和基因表达丰度

基因丰度是指基因组中基因的拷贝数。基因丰度高，也就是这个基因的数量多，那么这个基因的表达量也可能高，但不一定，主要看基因启动子的强弱。因此，高基因丰度并不意味着高表达丰度。

高基因表达丰度意味着基因转录成更多的mRNA复制转录翻译的模板都相同，进而表达更多的蛋白质，对表型的影响更大。

成绩单

转录本是一种或多种成熟的mRNA复制转录翻译的模板都相同，可以编码基因转录形成的蛋白质，一个基因可以通过不同的内含子剪接形成不同的转录本。转录组由许多转录本组装而成。

RNA和DNA测序的区别

测序深度和测序覆盖率

对长度为100bp的目标区域进行测序：采用单端测序，每个read长度为5bp；共获得 200 个读数；所有reads与target region进行比较后，100bp的target region中至少有1个位置98bp的位置被1个read覆盖，也就是说剩下的2bp没有被1个read覆盖。

深度：200 x 5/100 = 10 我们说这个排序的深度是 10X。

覆盖率：98/100 × 100% = 98% 我们说这个测序的覆盖率是98%

测序深度越高，基因覆盖率越高。当普通人的测序深度达到10x时，基因覆盖率为100%，测序深度饱和，增加测序深度没有效果。

刀片尺寸

通过检测双端测序的起始和终止位置，可以得到插入片段的长度，从而决定了测序的长度。

引物和适配器

提取基因组DNA后，通过超声或酶切中断，然后跑胶，得到300-500 bp的小片段。因为打断是随机打断的，可能会有粘端，所以要用酶来形成平端。在平端后加入A碱基得到粘端，将接头加入流通池，进行几轮PCR扩增得到测序文库。接头由三部分组成，依次是与流动池结合的寡聚体、样品索引和测序所需的引物预聚体。

测序时，先将测序引物与序列结合，然后边合成边进行测序（接一个碱基，测一次，然后进行化学反应，接上碱基，再测序，如此循环下去），然后测量长度。, 去掉合成的序列，再加入一个premer来测index，让每个read都有一个index（用来识别样品的来源），然后进行桥式PCR扩增，去掉已经被测的序列chain，然后再次测序。

需要注意的一点是，当插入的序列（即被超声打断的小片段）比较短，或者文库的插入片段短于序列的read长度时，可能会测到premer和index，所以在获取到数据之后，就要去联合了。

索引：每个样本被索引修改，得到的reads也包含索引。根据索引可以知道双端测序是否来自同一个样本。

特定链库

正链/负链：对于基因来说，两条DNA链之一作为RNA合成的模板。这条链称为负链（模板链/反义链），另一条称为正链（非模板链/正义链）。

反义链/有义链：在双链DNA中，用于转录mRNA的DNA链称为模板链，不用于转录的链称为非模板链。根据碱基互补配对原理，转录的mRNA链的碱基序列与非模板链的碱基序列相同。唯一的区别是非模板链中的T被mRNA链中的U取代，因此非模板链也称为编码链或有义链。

链特异性：链特异性构建了一个库，可以确定转录物是来自正链还是负链。以获得更准确的基因结构和基因表达信息。并且可以更好地发现新基因。（研究表明，许多基因组区域都有转录的正链和负链。反义转录是真核基因的一个特征，也是一种重要的调控方式。对于原核和低等真核生物的基因组，往往存在重叠基因。

为什么Illumina限制了合成链的长度，不能像Sanger法那样长到1k？

原因在于二代测序的额外PCR过程：每个位点都要进行多次测试。例如，一段时间后通过PCR得到的每个簇包含200个相同的序列，因此需要检查这200个序列。序列的相同位点被测序。

在第一轮中，我们将测试第一个位置（假设位置 1 是 A）。正常情况下，200个序列应该加A碱基，可惜只有199个在1位加了A碱基。1个序列没加，所以有199个红色和1个灰色【当然还是没有影响】；

第二轮（假设位置2为G），每个人都要加G来测量果岭，但是前一个没有加A，而且他要弥补之前的错误，所以在给其他序列加G的时候，就加了加了上次应该加的A，就变红了。这种红色在一大群绿色中以噪音的形式存在。依次向下，测序长度越长，噪声信号越多，标准信号和噪声信号可能各减半。这样系统就无法判断，只能给出N，如果N太多，后续的分析处理就会很麻烦。去丢数据，不去，又是多余的。

基因注释

① RefSeq 基因注释；来自 NCBI，注释基因的不同转录本。一个转录本对应一个数字并成为 RefSeq id。例如，可以翻译成蛋白质的转录本会以NM_开头，例如NM_015658；对于不可翻译的成绩单，的成绩单，会以NR_开头，比如NR_027055；不同注解的情况如下图（ps：注解库来源不同，数量不同）

②Ensembl annotation：对基因的不同转录本进行注释。以 ENSG 开头的 Ensembl gene_id 表示 Ensembl gene_id，例如 ENSG，Ensembl 转录本 id 以 ENST 开头表示 Ensembl 转录本 id，例如 ENST。

③ UCSC 基因注释：对基因的不同转录本进行注释，通常名称类似于uc004cpf。

反向互补序列的含义

生物DNA序列有两条链。虽然网站在查看基因组序列时一般都会提供正向链，但不同基因在基因组序列中的转录起始方向是不同的。有的基因在等待，有的则是停留在相反的方向。当需要查看转录方向与正向链相反的基因的序列时，如果要查找该基因的启动子（ATG），则需要查看正向链的反向互补序列。

此外，从基因组中扩增序列时，需要同时设计两条链的引物。这时候还需要正向序列和反向互补序列。

有许多基因调控同时作用于两条链。反向互补序列是根据另一条链的信息计算一条链的信息。

轨迹

基因座可以是基因、基因的一部分，也可以是具有一定调控作用的DNA序列。基因座是染色体上的固定位置，编码相同基因座的相同DNA称为等位基因。同一基因座的相同等位基因是纯合子，同一基因座的不同等位基因是杂合子。

基因异构体

亚型/同种型可以理解为基因的不同形式，即同一基因座产生的mRNA。转录起始位点（TSS）、编码蛋白序列和非翻译区存在差异。间接改变了基因的功能。

图中1、2、3为mRNA的三个外显子。由于连接方法不同，产生了三种同工型。

基因异构体

可变剪切

大多数真核基因转录产生的mRNA前体，一般都是以一种方式剪接产生一种mRNA，结果只产生一种蛋白质。然而，一些基因产生的mRNA前体可以通过不同的方式拼接产生两种以上的mRNA。

编码蛋白质的成熟 mRNA 是已剪接的前体 mRNA。外显子可以按其线性顺序拼接，内含子可以保留而不被切除。因此，成熟mRNA中不一定存在每个外显子和内含子。

有5种类型：外显子跳跃、内含子保留、3、 5'端可变剪接、3'端可变剪接、特定外显子可变剪接（如第一个或*后一个外显子）。

普通翻译

外显子跳跃

3'可变剪裁

5'可变剪裁

分析的障碍

（1）衡量标准：为了比较谁多谁少，一般采用相对定量的分析方法。但是，相同的绝对量对于不同的基数会有不同的相对值。例如，第一次A和B基因在第二次测量中的表达水平为10，那么此时A基因的丰度为10/(10+10）=50%；A、B、C的表达量在第二次测量中是 10 ，那么这次A的丰度变成了33.3%，但是能不能说第二次A基因表达的丰度比第一次低呢？所以，只看表面数字，并不能反映实际问题。

（2）测量方法：目前用于转录组测序的二代测序仍然测量一小部分DNA。由于可变剪切，一般都会去除内含子，拼接不同的外显子，但毕竟它们“同门研究”，所以得到的成绩单是相似的，就像由1、2组成的成绩单a和由1、3组成的成绩单b都包含3，所以你必须是更多很难将一个短段落与原始抄本进行比较（例如，如果一个阅读满足 3 的一小部分，那么这个阅读属于抄本 a 还是抄本 b？）

（3）测量对象：mRNA不如DNA稳定，容易降解，因此其丰度一直在变化。因此，测量转录组之前需要这个时间节点，以确保观察到变化，而这个变化与实验条件是相关的。一般来说，为了证明这一点，需要对处于一种状态的样品进行多次测量，即做的重复。差异基因的测定还必须通过duplication，即在一个条件下多次重复得到的值，标准条件下多次重复的值存在差异，所以认为这个差异基因是有效的。建议至少设置3次重复，并且五更好。

切感对比

有许多测序读数来自两个外显子的连接处（即剪接位点）。如果要比较参考基因组，则必须在读数中间添加一个缺口（即原始内含子）。就相当于原来的reads踩着两条船，现在两条船要回家了，reads的腿要开始裂了。因此，比较软件必须考虑到这一点，并在读取比较中间允许较大的间隙。

批量效果

对不同芯片、不同测序仪、不同测序通道或不同时间点采集的mRNA进行测序，即使是相同的mRNA也会导致测序得到的基因表达量存在较大差异，这就是批量效应。

短读长：测序得到的*大读长为500 bp，常见的序列片段长度为100-300 bp。

Long-read long read length：测序得到的reads超过1000bp，代表全长或接近全长的mRNA。

直接 RNA 测序 (dRNA-seq)：一种直接对 RNA 而非 cDNA 进行测序的测序技术。它通常用于对全长或接近全长的 mRNA 进行测序。

多映射读数：从转录组的同源区域测序的读数不能准确确认转录本或基因组的来源。

Synthetic long read：Synthetic long read：一种通过组装多个短读获得长读的方法。

唯一分子标识符 (UMI)：在扩增前构建 RNA-seq 文库时添加的短序列或条形码。理想情况下，每个转录本都与一个唯一标识符相结合。包含此标识符的读数来自此转录本仅在定量期间计算一次。可用于降低RNA-seq的数量偏好，特别适用于低初始RNA的单细胞实验。

读取长度：单个测序读取的长度。短读长RNA测序得到的长度通常为50-150 bp。

灵敏度：将检测到样本中转录物的百分比，灵敏度越高，比率越高。它受样品处理、文库制备、测序和计算偏好的影响。

特异性：一种测量被正确识别的差异表达转录本比例的方法，受样品处理、文库制备、测序和计算偏好的影响。

重复率重复率：与转录组中相同位置对齐的测序读数的比率。在 RNA-seq 文库中，一些转录本可能具有高重复率，因为它们在样本中的表达水平很高。高表达的基因具有高重复率，而低表达的基因可能具有*小的重复率。因此，RNA-seq 面临着挑战。该技术中的大多数重复可能是来自高表达转录本的真实信号，而其他重复则是由于扩增和测序偏好。

生物重复：多次检测不同生物来源的样本，如三个个体的组织，用于捕捉生物个体自身的变化；这种变化要么是要研究的对象，要么是噪音。相比之下，技术重复是对同一样本的重复操作——例如，对一个组织进行三种处理。

掺入对照内参：以特定浓度添加到样品中的外源核酸文库。它们通常是不同浓度的预合成 RNA，用于监测反应效率和技术方法偏差以及假阴性结果。

Translatome 翻译组：在细胞、组织或生物体中被翻译成蛋白质的 mRNA 的集合。

结构组结构组：细胞、组织或生物体中 RNA 的二级和三级结构的集合。

Interactome 相互作用组：细胞、组织和生物体中分子相互作用的集合，包括 RNA-RNA 或 RNA-蛋白质相互作用。

上一条英语四级翻译模板-英语四级4000必考词汇模板
下一条校优秀学生干部翻译模板

智信卓越-中国小语种翻译专家

复制转录翻译的模板-RNA-seq基础知识

相关阅读Relate

热门文章 Recent