logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

代谢组学数据分析的统计学方法综述

转自:https://mp.weixin.qq.com/s/XThAKeSBriHbeYKlU96pmA代谢组学研究产生大量的数据,这些数据具有高维、小样本、高噪声等复杂特征。如何从复杂的代谢组学数据中提取出有价值的信息,筛选出潜在的生物标志物成为近年来代谢组学研究的热点和难点。据此,本文针对目前代谢组学数据分析中的常用统计学方法及其研究进展进行介绍。代谢组学数据的特点代谢组学是...

概率校准 Probability Calibration

对于二分类分类器,除了得到AUC评价指标,常还需要了解分类器预测概率的准确性。比如分类器预测某个样本属于正类的概率是0.8,那么就应当说明有80%的把握认为该样本属于正类,或者100个概率为0.8的里面有80个确实属于正类。根据这个关系,可以用测试数据得到Probability Calibration curves。假设我们考虑这样的一种情况:在二分类中,属于类别0的概率为0.500001,属..

#机器学习
二分类模型AUC评价法

对于二分类模型,其实既可以构建分类器,也可以构建回归(比如同一个二分类问题既可以用SVC又可以SVR,python的sklearn中SVC和SVR是分开的,R的e1701中都在svm中,仅当y变量是factor类型时构建SVC,否则构建SVR)。二分类模型的评价指标很多,这里仅叙述AUC这个指标。AUC的具体原理此处不再叙述,可以参考相关资料,比如这个还行:ROC和AUC介绍以及如何计算AUC..

目标检测——传统算法

目标检测是计算机视觉中的重要任务之一。本系列博客将总结目标检测的各类算法,包括传统方法、基于CNN的算法(One stage、Two stage)。本文主要对传统方法进行概述,大部分思想源自网上的博客和论文。个人观点,广义的目标检测不仅包括物体检测(Object Detection),还包括边缘检测(Border Detection)及关键点检测(Landmark Detection)等。因此..

#目标检测
高维数据中特征筛选方法的思考总结——多变量分析筛选法

前言:之前的文章(高维数据中特征筛选方法的思考总结——单变量分析筛选法)中,对单变量分析筛选变量进行了初步考量,本文将进一步总结多变量分析筛选法。由于本文多处摘录网上的博客,只是进行了归纳整理,因此笔者将本文定性为转载类(转载请注明出处:https://blog.csdn.net/fjsd155/article/details/93754257)。多变量分析方法根据建模特点可以分为线性降维和非..

净重新分类改善指数 NRI

本文摘自:比较两个疾病模型的预测能力(医咖会是个不错的学习平台)分类模型不仅可以用AUC进行评价,还可以使用NRI对模型准确性进行比较。尤其是在多分类问题中,AUC可能不够方便或直观,此时NRI的价值就突显出来了。另外,有时候两个模型的AUC没有统计学差异,但是NRI却可以检验出统计学差异(2008年发表在Stat Med杂志上的文章《Evaluating the added predicti..

二分类模型AUC评价法

对于二分类模型,其实既可以构建分类器,也可以构建回归(比如同一个二分类问题既可以用SVC又可以SVR,python的sklearn中SVC和SVR是分开的,R的e1701中都在svm中,仅当y变量是factor类型时构建SVC,否则构建SVR)。二分类模型的评价指标很多,这里仅叙述AUC这个指标。AUC的具体原理此处不再叙述,可以参考相关资料,比如这个还行:ROC和AUC介绍以及如何计算AUC..

马尔可夫链蒙特卡罗算法 MCMC

马尔可夫链蒙特卡罗算法(MCMC)是贝叶斯推断中的明星算法,困惑笔者颇久,阅读了刘建平大佬的博客及知乎上的一些阅读笔记后,终于有了些自己的理解。本文基于刘建平大佬的博客进行梳理,复制粘贴较多(甚至截图),权且当成读书笔记。蒙特卡罗方法原文链接:MCMC(一)蒙特卡罗方法要理解好MCMC,得先从第二个MC——Monte Carlo开始说起。引入求解积分问题(即面积计算类问题,尤其...

代谢组学数据分析的统计学方法综述

转自:https://mp.weixin.qq.com/s/XThAKeSBriHbeYKlU96pmA代谢组学研究产生大量的数据,这些数据具有高维、小样本、高噪声等复杂特征。如何从复杂的代谢组学数据中提取出有价值的信息,筛选出潜在的生物标志物成为近年来代谢组学研究的热点和难点。据此,本文针对目前代谢组学数据分析中的常用统计学方法及其研究进展进行介绍。代谢组学数据的特点代谢组学是...

模型中各变量对模型的解释程度

在建立一个模型后,我们会关心这个模型对于因变量的解释程度,甚至想知道各个自变量分别对模型的贡献有多少。对于非线性模型,如 Random Forest 和 XGBoost 等由于其建模过程就是筛选变量的过程,可以计算变量的重要性;但对于大多数非线性模型,是比较难确定各个变量的贡献程度,本文仅讨论广义线性模型中的变量贡献程度。因此本文分为两种情况来看:普通线性模型与广义线性模型。普通线性回归...

    共 37 条
  • 1
  • 2
  • 3
  • 4
  • 请选择