**码上人生** 个人主页

@qq_16365849

**码上人生**

2023-10-20 16:03:27 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

13.1、时间序列实例

时间序列实例junjun2016年2月12日Rmarkdown脚本及数据集：http://pan.baidu.com/s/1gekA3AV实例一、使用ARIMA模型对裙子长度预测ARIMA 模型为平稳时间序列定义的。因此，如果你从一个非平稳的时间序列开始，首先你就需要做时间序列差分直到你得到一个平稳时间序列。如果你必须对时间序列做 d 阶差分才能得到一

#机器学习

统计学总结之Bias(偏差)，Error(误差)，和Variance(方差)的区别

Bias(偏差)，Error(误差)，和Variance(方差)的区别1）、概念：bias ：度量了某种学习算法的平均估计结果所能逼近学习目标的程度；（一个高的偏差意味着一个坏的匹配）variance ：则度量了在面对同样规模的不同训练集时分散程度。（一个高的方差意味着一个弱的匹配，数据比较分散）靶心为某个能完美预测的模型，离靶心越远，则准确率随之降低。靶上的点代表某次对某个数据集上学

5、聚类之层次聚类、基于划分的聚类（k-means）、基于密度的聚类、基于模型的聚类

一、层次聚类1、层次聚类的原理及分类1）层次法（Hierarchicalmethods）先计算样本之间的距离。每次将距离最近的点合并到同一个类。然后，再计算类与类之间的距离，将距离最近的类合并为一个大类。不停的合并，直到合成了一个类。其中类与类的距离的计算方法有：最短距离法，最长距离法，中间距离法，类平均法等。比如最短距离法，将类与类的距离定义为类与类之间样本的最短距离。层次聚类算法根

#机器学习 #聚类

WOE评分卡--WOE理论

1、评分卡概述最常见的用于信用评分的模型就是logistic回归，这是一种处理二分类因变量的广义线性模型。这种模型的理论基础比较扎实，但是对于不同的问题当然也存在一些特殊的处理方式.由于制作评分卡的某些需要，通常会在建立评分模型时将自变量做离散化处理（等宽切割，等高切割，或者利用决策树来切割），但是模型本身没办法很好地直接接受分类自变量的输入，因此需要对自变量进行再次的处理。比较常规的做法

重点：机器学习总结之各算法常用包和函数

基本操作常用函数及包预测函数：predict()type=”prob”判别该量度的昆虫归类为A、B和C的概率；type=”response”：判别该量度的昆虫的类别；预测分类的概率的函数predict(…, type)参数type：R语音里面不同模型，参数type取值也不同。例如，可能取值有prob、posterior、raw（朴素贝叶斯）、probability（请参考使用包的帮助文

#机器学习

spark计算模型

spark计算模型与Hadoop 不同，Spark 一开始就瞄准性能，将数据（包括部分中间数据）放在内存，在内存中计算。用户将重复利用的数据缓存到内存，提高下次的计算效率，因此Spark 尤其适合迭代型和交互型任务。Spark 需要大量的内存，但性能可随着机器数目呈多线性增长。本章将介绍Spark 的计算模型。3.1　Spark 程序模型下面通过一个经典的示例程序来初步了解Spark

#spark #大数据

WOE信用评分卡--R语言实现

---title: "信用评分模型"author:"junjun"date: "2016年10月3日"output:html_document--- #一、数据的获取与整合数据来源：数据来自Kaggle，cs-training.csv是有15万条的样本数据，下图可以看到这份数据的大致情况。下载地址为：https://www.kaggle.com/c/G

数据挖掘总结之有监督学习与无监督学习的区别

有监督学习与无监督学习的区别在机器学习(Machine learning)领域，主要有三类不同的学习方法：构造预测模型的有监督学习（supervised learning）；构造描述性模型的无监督学习（un supervised learning）（其实，还有半监督学习）监督学习：通过已有的一部分输入数据与输出数据之间的对应关系，生成一个函数，将输入映射到合适的输出，例如分类。就是每次迭代开始前都

#数据挖掘 #机器学习

数据挖掘总结之分类与聚类的区别

分类与聚类的区别Classification (分类)：一个 classifier会从它得到的训练集中进行“学习”，从而具备对未知数据进行分类的能力，这种提供训练数据的过程通常叫做 supervised learning (监督学习)。所谓分类，简单来说，就是根据文本的特征或属性，划分到已有的类别中。常用的分类算法包括：决策树分类法，朴素的贝叶斯分类算法(native Bayesian clas

#数据挖掘 #分类 #聚类

数据挖掘总结之数据挖掘的过程

数据挖掘的过程机器学习、数据挖掘的过程：数据选择——》数据清洗——》数据构造——》数据格式化——》训练模型——》评估模型——》模型优化——》部署数据选择：剔除不相关属性和冗余属性数据清洗：检验异常值、提高数据质量数据构造：对缺失边界的属性进行样本数据构建数据格式化：对样本数值化、规范化过程也可以总结为：业务理解——》数据理解——》建模 ——》模型优化——》部署如有不当之处，欢迎指导

#数据挖掘 #机器学习

共 17 条

请选择