
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
时间序列实例junjun2016年2月12日Rmarkdown脚本及数据集:http://pan.baidu.com/s/1gekA3AV实例一、使用ARIMA模型对裙子长度预测ARIMA 模型为平稳时间序列定义的。 因此, 如果你从一个非平稳的时间序列开始, 首先你就需要做时间序列差分直到你得到一个平稳时间序列。如果你必须对时间序列做 d 阶差分才能得到一
Bias(偏差),Error(误差),和Variance(方差)的区别1)、概念:bias :度量了某种学习算法的平均估计结果所能逼近学习目标的程度;(一个高的偏差意味着一个坏的匹配)variance :则度量了在面对同样规模的不同训练集时分散程度。(一个高的方差意味着一个弱的匹配,数据比较分散)靶心为某个能完美预测的模型,离靶心越远,则准确率随之降低。靶上的点代表某次对某个数据集上学
一、层次聚类1、层次聚类的原理及分类1)层次法(Hierarchicalmethods)先计算样本之间的距离。每次将距离最近的点合并到同一个类。然后,再计算类与类之间的距离,将距离最近的类合并为一个大类。不停的合并,直到合成了一个类。其中类与类的距离的计算方法有:最短距离法,最长距离法,中间距离法,类平均法等。比如最短距离法,将类与类的距离定义为类与类之间样本的最短距离。层次聚类算法根
1、评分卡概述最常见的用于信用评分的模型就是logistic回归,这是一种处理二分类因变量的广义线性模型。这种模型的理论基础比较扎实,但是对于不同的问题当然也存在一些特殊的处理方式.由于制作评分卡的某些需要,通常会在建立评分模型时将自变量做离散化处理(等宽切割,等高切割,或者利用决策树来切割),但是模型本身没办法很好地直接接受分类自变量的输入,因此需要对自变量进行再次的处理。比较常规的做法
基本操作常用函数及包预测函数:predict()type=”prob”判别该量度的昆虫归类为A、B和C的概率;type=”response”:判别该量度的昆虫的类别;预测分类的概率的函数predict(…, type)参数type:R语音里面不同模型,参数type取值也不同。例如,可能取值有prob、posterior、raw(朴素贝叶斯)、probability(请参考使用包的帮助文
spark计算模型与Hadoop 不同,Spark 一开始就瞄准性能,将数据(包括部分中间数据)放在内存,在内存中计算。用户将重复利用的数据缓存到内存,提高下次的计算效率,因此Spark 尤其适合迭代型和交互型任务。Spark 需要大量的内存,但性能可随着机器数目呈多线性增长。本章将介绍Spark 的计算模型。3.1 Spark 程序模型下面通过一个经典的示例程序来初步了解Spark
---title: "信用评分模型"author:"junjun"date: "2016年10月3日"output:html_document--- #一、数据的获取与整合 数据来源:数据来自Kaggle,cs-training.csv是有15万条的样本数据,下图可以看到这份数据的大致情况。下载地址为:https://www.kaggle.com/c/G
有监督学习与无监督学习的区别在机器学习(Machine learning)领域,主要有三类不同的学习方法:构造预测模型的有监督学习(supervised learning);构造描述性模型的无监督学习(un supervised learning)(其实,还有半监督学习)监督学习:通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入映射到合适的输出,例如分类。就是每次迭代开始前都
分类与聚类的区别Classification (分类):一个 classifier会从它得到的训练集中进行“学习”,从而具备对未知数据进行分类的能力,这种提供训练数据的过程通常叫做 supervised learning (监督学习)。所谓分类,简单来说,就是根据文本的特征或属性,划分到已有的类别中。常用的分类算法包括:决策树分类法,朴素的贝叶斯分类算法(native Bayesian clas
数据挖掘的过程机器学习、数据挖掘的过程:数据选择——》数据清洗——》数据构造——》数据格式化——》训练模型——》评估模型——》模型优化——》部署数据选择:剔除不相关属性和冗余属性数据清洗:检验异常值、提高数据质量数据构造:对缺失边界的属性进行样本数据构建数据格式化:对样本数值化、规范化过程也可以总结为:业务理解——》数据理解——》建模 ——》模型优化——》部署如有不当之处,欢迎指导







