目录

一、转录组数据分析一般流程

二、转录组概述

1.综述推荐

2.综述之最佳实践

三、转录组测序原理

1.定义

2.转录组类型

3.普通转录组测序实验流程图-RNA-Seq

4.cDNA文库

5.文库质控

6.上机测序

 6.1、测序原理-边合成边测序(SBS)

1.Flowcell-流动池

2.桥式PCR扩增

7.得到测试数据

五、RNA-seq 应用

六、补充---碱基质量值 

七、需要掌握linux基础知识【以及掌握fa、fq等等数据格式】


一、转录组数据分析一般流程

二、转录组概述

1.综述推荐

• A comprehensive evaluation of normalization methods for illuminating high-thoughput RNA sequencing data analysis

• Methods to study splicing from high-throughput RNA sequencing data

A survey of best practices for RNA-seq data analysis

• hppRNA-a snakelike-based handy parameter-free pipeline for RNA-seq analysis of numerous samples

• Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis

RNA sequencing: the teenage years

转录组测序数据分析公益视频学习笔记分享

https://mp.weixin.qq.com/s/b_NnpjSTLowos_ABsBeMTQ

2.综述之最佳实践

3. 转录组的几种分析策略

三、转录组测序原理

1.定义

广义:转录组是指某一生理条件下细胞内所有转录产物的集合,包括mRNA,tRNA,miRNA等non-coding RNA。
狭义:转录组是指所有的mRNA的总和

而转录组测序即是利用高通量测序技术,将细胞或组织中的全部或部分mRNA, miRNA, lnc RNA 进行测序分析的技术。

2.转录组类型

• mRNA: RNA-Seq,普通转录组测序

• lncRNA:lncRNA-Seq,一般采用链特异性测序

• miRNA: miRNA-Seq,小RNA测序

• circRNA: cirRNA-seq,一般有两种,消化性线性RNA

建库或者去rRNA建库。 主要在于建库方式有所不同,提取RNA对象不同

3.普通转录组测序实验流程图-RNA-Seq

高质量的RNA是整个项目成功的基础。我们使用以下方法对样品进行检测,检 测结果达到要求后方可进行建库:

(1) Nanodrop检测RNA的纯度(OD260/280)、浓度、核酸吸收峰是否正常;

(2) Agilent 2100精确检测RNA的完整性,检测指标包括:RIN值、28S/18S、图谱基线有无上抬、5S峰。

对于降解样本难以获取完整的转录本信息,影响数 据质量及完整性。 当RNA总量较低时,会导致建库成功率低,或数 据dup率高等问题。

                               【2100峰图:如下是两个RNA样品2100检测结果示例】 

样品检测合格后,进行文库构建,主要流程如下:

(1) 磁珠富集真核生物mRNA(此步骤对RNA的完整性要求比 较高,一般RIN值要大于8);

(2) mRNA进行随机打断;

(3) 以mRNA为模板,合成第一条cDNA链和第二条cDNA链

(4) 进行末端修复、加A尾并连接测序接头,然后进行片段大小 选择;

(5) 最后通过PCR富集得到cDNA文库。

4.cDNA文库

文库:连接好接头的cDNA,叫做文库,英文为library

Y字接头:自身不配对,可以有效避免接头 在连接的过程中自连接,用途是与flowcell 上的接头进行连接插入的cDNA序列是各种各样的

index:一段特定的序列,标记不同来源的样本 6-8个碱基 read2测序引物结合位点:在Index序列的旁边GAT

5.文库质控

文库构建完成后,对文库质量进行检测,检测结果达到要求后方可进行上机测序, 检测方法如下:

(1) 使用Qubit进行初步定量,使用Agilent 2100对文库的插入片段(insert size)进 行检测,insert size符合预期后才可进行下一步实验。

(2) Q-PCR方法对文库的有效浓度进行准确定量(文库有效浓度>2nM),完成库 检。

6.上机测序

库检合格后,不同文库按照目标下机数据量进行pooling,用Illumina Novaseq等平台进行测序。主要有以下四个步骤:

 6.1、测序原理-边合成边测序(SBS)

SBS(Sequencing-By-Synthesis): 通过单分子阵列实现在小型芯片(Flowcell)上进行桥式PCR反应。通过可逆阻断技术实现每次只合成一个碱基,再利用 四种带有不同荧光标记的碱基,通过荧光激发/捕获,读取碱 基信息

基于可逆终止的、荧光标记dNTP,边合成边测序

1.Flowcell-流动池

芯片: 8条通道:内表面做了专门得化学修饰,布满了短的oligo 序列(P7/P5接头)2中DNA引物, 种在玻璃表面,通过共价键连接。

液流孔: 每个lane的两端,液流流进、流出的地方

【Flowcell中的每条Lane的每个 面各被扫描三个道,每个道被 称为一个swath】

【不同的芯片会有差别】

2.桥式PCR扩增

把文库种到芯片上去,然后扩增,文库两头的DNA序列与芯片上的引物互补,互补杂交杂交完后,加入dNTP和聚合酶,合成双链,加入NaOH碱溶液,双链解开,加入中性液体,环境变成中性。

7.得到测试数据

上机测序完成之后得到的测序数据:FASTQ文件

一般以fastq或者fq结尾保存在FASTQ格式的文件中

五、RNA-seq 应用

通过RNA-seq,也就是转录组测序,可以帮助我们了解各种比较条件下所有基因的表达差异包括:

正常组织与肿瘤组织;

药物治疗前后的表达差异;

发育过程中,不同发育阶段,不同组织的表达差异……

不仅可以检测,RNA 表达的差异,还有RNA 结构的差异。

转录组的主要目的之一便是寻找基因表达的差异 。

六、补充---碱基质量值 

碱基质量值(Quality Score或Q-score)是碱基识别 (Base Calling)出错的概率的整数映射。通常使用 的碱基质量值Q公式[1]为:

Q=-10 * log10P

其中P为碱基识别出错的概率。下表给出了碱基质量 值与碱基识别出错的概率的对应关系

 

碱基质量值越高表明碱基识别越可靠,准确度越高。比如,对于碱基质量值为Q20的碱基识别,100个碱基 中有1个会识别出错,以此类。

【第四行的BBB对应的是ASCLL码表里的值,以此来计算碱基质量值】

 

七、需要掌握linux基础知识【以及掌握fa、fq等等数据格式】

【在前几篇文章中有详细讲解,这里就不赘述啦】

温馨提示:常用Linux命令掌握

ls,cd,mkdir(-p参数),pwd,tree(-L参数),which,rmdir,rm

 

 

 

 

Logo

更多推荐