简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
生物信息学早已不再局限于基因组学领域了,后基因组学越来越受到关注,并且这几年“多组学”的也研究越来越多。其中,代谢组学是相对比较年轻的一门学科,“代谢组”(metabolome)的概念于1998第一次被提出。基因组学和转录组学是生物信息的上游,更多的体现的是生物活动的内在本质因素,而代谢组学是生物信息的最下游,体现的是生物活动的表型结果。代谢组学分为靶向代谢组学和非靶向代谢组学,本文将结合本人的经
本文大部分内容来源于书本和论文等资料,笔者将本文归为转载类,读者转载时请注明出处:https://blog.csdn.net/fjsd155/article/details/88318536广义估计方程(generalized estimating equation, GEE)用于估计广义线性模型的参数(其中线性模型的结果之间可能存在未知的相关性)。于1986年由Liang和Zeger首次提出..
本文转自:如何在R软件中求一致性指数C-index,C指数即一致性指数(index of concordance),用来评价模型的预测能力。c指数是资料所有病人对子中预测结果与实际结果一致的对子所占的比例。它估计了预测结果与实际观察到的结果相一致的概率。c指数的计算方法是:把所研究的资料中的所有研究对象随机地两两组成对子。以生存分析为例,对于一对病人,如果生存时间较长的一位的预测生存时间也长于..
似然比检验(likelihood ratio test,LRT)是一种检验参数能否反映真实约束的方法(分布或模型的某参数等于 是否为真实约束)。似然比检验的思想是:“如果参数约束是有效的,那么加上这样的约束不应该引起似然函数最大值的大幅度降低。也就是说似然比检验的实质是在比较有约束条件下的似然函数最大值与无约束条件下似然函数最大值。” 可以看出,似然比检验是一种通用的检验方法(比 检验、...
广义线性混合模型GLMM(Generalized Linear Mixed Model),是广义线性模型GLM 和线性混淆模型LMM 的扩展形式,于二十世纪九十年代被提出。GLMM因其借鉴了混合模型的思想,其在处理纵向数据(重复测量资料)时,被认为具有独特的优势。GLMM不仅擅长处理重复测量资料,还可以用于任何层次结构的数据(因为本质上又是多水平模型)。提到GLMM,有必要先介绍几个容易混淆的..
本文前部分摘自:偏最小二乘法回归(Partial Least Squares Regression),后半部分原创。诸如基因组学、转录组学、蛋白组学及代谢组学等高通量数据分析,由于自变量数目大于病例数(未知数大于方程个数),无法直接使用传统的统计分析模型。比如,线性回归的窘境:如果样例数m相比特征数n少(m<n)或者特征间线性相关时,由于(n*n矩阵)的秩小于特征个数(即不可逆)。因此最..
Python目前主流的应用包括:Web开发、图形界面开发、系统网络运维、网络编程、科学数字计算、3D游戏开发等。Python的web框架很多很多,百花齐放。个人接触最多的是这四个大佬:Django、Flask、Tornado、Aiohttp,够用就行,以后就用这四个吧,性能需求小的直接用Django快速搞定。Tornado是最早接触的web框架,异步并发首选。Tornado不仅是web...
模型构建好后,如何判断这个模型好不好?或者说,对于两个模型,如何判断哪个模型更好呢?本文将简单综述模型评价的各种方法。对于模型的评价,主要分为2个角度:一个是模型的Discrimination(区分度),或称预测精度,评价的指标包括AUC、C指数、NRI等;另一个是Goodness of Fit(拟合优度),或称Calibration(校准度),评价指标包括AIC、BIC、R方、Brier分数..
入门生物信息学,选了一条比较难的路,直接从底层算法开始,这种做法其实不太明智。读了"Algorithms on Strings, Trees and Sequences",一本厚厚的算法书,后半部分其实读得有些粗糙。今天读完了第一遍,总的来说还是有些收获,将笔记记录于此。全书总共分为四部分:基本字符串算法、后缀树算法、非精确匹配算法、映射与测序。基本字符串算法以KMP为代表,这
各种*aas:SaaS:Software as a Service,软件即服务PaaS:Platform as a Service,平台即服务IaaS:Infrastructure as a Service,基础设施即服务OaaS:Operations as a Service, 运维即服务BaaS:Backend as a Service,后端即服务(如 https://lea