转录组测序分析
组测序原理1.定义2.转录组类型3.普通转录组测序实验流程图-RNA-Seq4.cDNA文库5.文库质控6.上机测序6.1、测序原理-边合成边测序(SBS)1.Flowcell-流动池2.桥式PCR扩增7.得到测试数据五、RNA-seq 应用六、补充---碱基质量值七、需要掌握linux基础知识【以及掌握fa、fq等等数据格式】
目录
七、需要掌握linux基础知识【以及掌握fa、fq等等数据格式】
一、转录组数据分析一般流程
二、转录组概述
1.综述推荐
• A comprehensive evaluation of normalization methods for illuminating high-thoughput RNA sequencing data analysis
• Methods to study splicing from high-throughput RNA sequencing data
• A survey of best practices for RNA-seq data analysis
• hppRNA-a snakelike-based handy parameter-free pipeline for RNA-seq analysis of numerous samples
• Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis
• RNA sequencing: the teenage years
转录组测序数据分析公益视频学习笔记分享
https://mp.weixin.qq.com/s/b_NnpjSTLowos_ABsBeMTQ
2.综述之最佳实践
3. 转录组的几种分析策略
三、转录组测序原理
1.定义
广义:转录组是指某一生理条件下细胞内所有转录产物的集合,包括mRNA,tRNA,miRNA等non-coding RNA。
狭义:转录组是指所有的mRNA的总和
而转录组测序即是利用高通量测序技术,将细胞或组织中的全部或部分mRNA, miRNA, lnc RNA 进行测序分析的技术。
2.转录组类型
• mRNA: RNA-Seq,普通转录组测序
• lncRNA:lncRNA-Seq,一般采用链特异性测序
• miRNA: miRNA-Seq,小RNA测序
• circRNA: cirRNA-seq,一般有两种,消化性线性RNA
建库或者去rRNA建库。 主要在于建库方式有所不同,提取RNA对象不同
3.普通转录组测序实验流程图-RNA-Seq
高质量的RNA是整个项目成功的基础。我们使用以下方法对样品进行检测,检 测结果达到要求后方可进行建库:
(1) Nanodrop检测RNA的纯度(OD260/280)、浓度、核酸吸收峰是否正常;
(2) Agilent 2100精确检测RNA的完整性,检测指标包括:RIN值、28S/18S、图谱基线有无上抬、5S峰。
对于降解样本难以获取完整的转录本信息,影响数 据质量及完整性。 当RNA总量较低时,会导致建库成功率低,或数 据dup率高等问题。
【2100峰图:如下是两个RNA样品2100检测结果示例】
样品检测合格后,进行文库构建,主要流程如下:
(1) 磁珠富集真核生物mRNA(此步骤对RNA的完整性要求比 较高,一般RIN值要大于8);
(2) mRNA进行随机打断;
(3) 以mRNA为模板,合成第一条cDNA链和第二条cDNA链
(4) 进行末端修复、加A尾并连接测序接头,然后进行片段大小 选择;
(5) 最后通过PCR富集得到cDNA文库。
4.cDNA文库
文库:连接好接头的cDNA,叫做文库,英文为library
Y字接头:自身不配对,可以有效避免接头 在连接的过程中自连接,用途是与flowcell 上的接头进行连接插入的cDNA序列是各种各样的
index:一段特定的序列,标记不同来源的样本 6-8个碱基 read2测序引物结合位点:在Index序列的旁边GAT
5.文库质控
文库构建完成后,对文库质量进行检测,检测结果达到要求后方可进行上机测序, 检测方法如下:
(1) 使用Qubit进行初步定量,使用Agilent 2100对文库的插入片段(insert size)进 行检测,insert size符合预期后才可进行下一步实验。
(2) Q-PCR方法对文库的有效浓度进行准确定量(文库有效浓度>2nM),完成库 检。
6.上机测序
库检合格后,不同文库按照目标下机数据量进行pooling,用Illumina Novaseq等平台进行测序。主要有以下四个步骤:
6.1、测序原理-边合成边测序(SBS)
SBS(Sequencing-By-Synthesis): 通过单分子阵列实现在小型芯片(Flowcell)上进行桥式PCR反应。通过可逆阻断技术实现每次只合成一个碱基,再利用 四种带有不同荧光标记的碱基,通过荧光激发/捕获,读取碱 基信息
基于可逆终止的、荧光标记dNTP,边合成边测序
1.Flowcell-流动池
芯片: 8条通道:内表面做了专门得化学修饰,布满了短的oligo 序列(P7/P5接头)2中DNA引物, 种在玻璃表面,通过共价键连接。
液流孔: 每个lane的两端,液流流进、流出的地方
【Flowcell中的每条Lane的每个 面各被扫描三个道,每个道被 称为一个swath】
【不同的芯片会有差别】
2.桥式PCR扩增
把文库种到芯片上去,然后扩增,文库两头的DNA序列与芯片上的引物互补,互补杂交杂交完后,加入dNTP和聚合酶,合成双链,加入NaOH碱溶液,双链解开,加入中性液体,环境变成中性。
7.得到测试数据
上机测序完成之后得到的测序数据:FASTQ文件
一般以fastq或者fq结尾保存在FASTQ格式的文件中
五、RNA-seq 应用
通过RNA-seq,也就是转录组测序,可以帮助我们了解各种比较条件下所有基因的表达差异包括:
正常组织与肿瘤组织;
药物治疗前后的表达差异;
发育过程中,不同发育阶段,不同组织的表达差异……
不仅可以检测,RNA 表达的差异,还有RNA 结构的差异。
转录组的主要目的之一便是寻找基因表达的差异 。
六、补充---碱基质量值
碱基质量值(Quality Score或Q-score)是碱基识别 (Base Calling)出错的概率的整数映射。通常使用 的碱基质量值Q公式[1]为:
Q=-10 * log10P
其中P为碱基识别出错的概率。下表给出了碱基质量 值与碱基识别出错的概率的对应关系
碱基质量值越高表明碱基识别越可靠,准确度越高。比如,对于碱基质量值为Q20的碱基识别,100个碱基 中有1个会识别出错,以此类。
【第四行的BBB对应的是ASCLL码表里的值,以此来计算碱基质量值】
七、需要掌握linux基础知识【以及掌握fa、fq等等数据格式】
【在前几篇文章中有详细讲解,这里就不赘述啦】
温馨提示:常用Linux命令掌握
ls,cd,mkdir(-p参数),pwd,tree(-L参数),which,rmdir,rm
更多推荐
所有评论(0)