
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
该系列日志仅记录在做machine learning review的group meeting slides中的各种疑惑及寻求到的答案。1.什么是贝叶斯网络?贝叶斯网络,又称信念网络或是有向无环图模型,是一种概念图模型,借由有向无环图中得知一组随机变量及其n组条件概率分布的性质。2.贝叶斯网络的学习目标是什么?举例而言,贝叶斯网络可用来表示疾病和其相关症状间的概率关系;倘若已知某种...
1. 主成分分析是什么?主成分分析是一种特征降维的方法。学习理论中,特征是要剔除与标签无关的特征。比如“汽车的颜色”与“汽车的速度”无关;主成分分析要处理与标签有关、但是存在噪声或冗余的特征。比如在一个汽车样本中,“千米/小时”与“英里/小时”中有一个冗余了。主成分分析的方法比较直接,只要计算特征向量就可以降维了。2.因子分析是什么?因子分析是一种数据简化技术,是一种数据的...
第八章新一代测序NGS:转录组分析RNA-Seq8.1 转录组介绍A transcriptome is a collection of all the transcripts present in a given cell.所谓转录组(transcriptome),是指特定细胞中全体转录本(transcript)的集合。也可以说是细胞特定时刻基因表达谱的一个快照(snapshot...
第四章 马尔科夫模型4.4 学生课堂报告1Example1: Was she happy? 非常有意思的例子。。。hidden_states = (Happy, Unhappy)observations = (Kiss, Beat, Do nothing)Viterbi算法Example2: 5’ splice site recognition-----hidden_stat...
这一章之前在博客中就有过介绍。这里是查漏补缺。运用全局比对的主要优势在于对具有高度同源性的序列进行优化,这在以已知三维结构的同源性序列为基础对未知序列的三维结构进行预测的模型构建中是十分有用的。局部比对适合用于哪些在其全长中具有局部的小同源性片段的序列比较,一般用于特定序列位点、结构域及其他类型重复序列的搜索,同时它在发现数据库中待分析序列的同源序列过程中也有重要意义。相似性(similarity
除mRNA以外,生物体内还存在许多不编码蛋白质的RNA,直接在RNA水平发挥作用,称为非编码RNA(non-coding RNA, ncRNA)。细胞中含量最高的rRNA和tRNA这两种常见的非编码RNA,广义上ncRNA包含这两种研究的非常透彻的RNA,但是狭义上往往不包括。最近研究表明很多非编码RNA具有很重要的功能,其中突出和核心的作用是调控。ncRNA若长度小于200nt,为短链RNA,若
第五章新一代测序NGS5.4 关于回帖、变异鉴定的补充材料BWT算法是BWA软件所使用的压缩算法,它可以对数据进行无损压缩,它对字符串乱转后得到的字符矩阵进行排序和变换,使数据更容易被压缩。BWT算法利用逆字符的方法去检验是否存在相同(匹配)的区域,它不能处理gap。L列和F列的两个性质:L列的序列是其所对应的F列的序列在原始序列中的前一位。L列中字母出现的顺序和F中的相...
第五章新一代测序NGS:重测序的回帖和变异鉴定5.1 新一代测序从二十世纪前,人类认识到DNA的重要性后,一直以来将测序----确定一个特定DNA分子的序列----作为理解生命的重要方法。真正可以大规模运用的核酸测序方法,是1977年由英国生物化学家Frederick Sanger提出并实现.Sanger测序法的广泛应用使得大规模测定基因组序列成为可能,并为人类最终在20世纪...
北京大学----生物信息学:导论与方法(2013?)第一章 导论与历史1.1 什么是生物信息学基因组就是ATCG这四个字母的简单的重复人的基因组一共有31亿个碱基对,里面只有2.9%是编码蛋白的基因区间。高等生物有大量的可变剪切,一个基因可以有多个剪切体,翻译成多个蛋白。整个世界上除了RNA病毒之外的其他的所有物种的基因组都是由ATCG这样简单的重复组成的。核酸序列的增...
目前生物学数据库的四种类型:平面文件、关系型数据库、面向对象数据库和基于Internet平台的XML。人类基因组计划的主要目标:获取完整、准确、高质量的人类基因组序列。生物学数据存放类型:序列、三维结构、文献、序列特征、基因组图谱、表达谱等。二级数据库则是在一级数据库的信息基础上进行了计算加工处理并增加了许多人为的注释而构成的。如何查找与研究相关的生物学资源:利用公共搜索引擎了解重要的生物信息学门







