logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

python 深度学习(2) -- 神经网络回归模型

我们使用波士顿数据构建我们的神经网络回归模型,样本包含了 14 个变量的 506 个例子/观察 结果。波士顿数据包含在 sklearn 包中from sklearn import datasetsboston = datasets.load_boston()x,y = boston.data,boston.target然后我们将数据进行标准化,在传统的统计分析中,通常将变量进行标准...

对深度学习的认知 -- 深度模型可以解决什么问题

在跟深度模型打交道的过程中,使用 DNN 解决了一些分类的问题。目前 DNN 好像是非常流行的一种学习方法。但是,如果要问我什么是 DNN,DNN 到底为什么这么受欢迎,它到底有哪些优势?以下是我个人的一些看法和回答。1.什么是 DNN?对于这个问题,我觉得 DNN 就是利用多层抽象表示概念和特征的一种方法。如图,隐藏层就是 DNN 的秘密所在,它模拟的是人体神经元的传输机制。加权...

实战智能推荐系统(1)-- 个性化推荐系统及其基本推荐算法

个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。推荐系统有3个重要的模块:用户建模模块,推荐对象模块,推荐算法模块。主要推荐算法1. 基于内容推荐基于内容推荐是信息过滤技术的延续与发展,它是建立在项目的内容信息上作出推断的,而不需要依据用户对项目的评价意见,更多的需要用机器学习的方法从关于内容的特征描述的事件中得到用

N-gram 特征提取

N-gram 是一种基于统计语言模型的算法,又被称为一阶马尔科夫链。它的基本思想是将文本里面的内容按照字节进行大小为 N 的滑动窗口操作,形成了长度是 N 的字节片段序列。每一个字节片段称为 gram,对所有的 gram 的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键 gram 列表,也就是这个文本的向量特征空间。列表中的每一种 gram 就是一个特征向量维度。算法优点:1...

python 数据挖掘(11)-- 聚类分析

这里介绍 Kmeans 聚类算法,K-Means 聚类算法在之前就介绍过,只不过哪个时候用的是 mahout算法的原理和过程不再介绍了,在 NLP 专栏可以找到,不再累述,主要是这里增加了一个聚类结果可视化工具 TSNE,它的定位是高维数据的可视化,TSNE 提供了一种有效的数据降维方式,让我们可以在 2 维或者 3 维的空间对高维数据展示聚类结果。数据consumption_data.x...

#聚类#kmeans
python 数据挖掘(5)-- 拉格朗日插值法

当数据缺失时,我们通常需要填补缺失数据,这里介绍拉格朗日插值法。根据数学知识可以知道,对于平面上已知的 n 个点,可以找到一个 n-1 次多项式,使得多项式经过这 n 个点将 n 个点的坐标(x1,y1),(x2,y2)... (xn,yn)代入多项式函数,得解出拉格朗日插值多项式为:即用拉格朗日插值法处理日销售额数据 catering_sale.xls如下...

python 数据挖掘(12)-- 关联规则 Apriori

关联规则指的是,当事件 A 发生时,事件 B 发生有多大的置信度。也就是 事件 B 对 事件 A 的相关性。当然这是最简单的情况,也可以多个事件关联,比如事件 A,B 发生时,事件 C 发生的概率。Apriori 算法是一个比较传统的关联算法,主要就是基于统计学的一种算法。定义两个概念:项集:即事件的集合支持度:就是 Support(A=>B) = P(A∩B) 也就是 A 和 ...

python 数据挖掘(9)-- 决策树

决策树用在分类的问题上,说白了就是根据属性判断某一类别的问题。决策树的核心是什么?打个比方,如果今天下雨,我就去超市,如果超市没有关门,我就买苹果。假设把结果分成两类,买苹果和不买苹果。则分为下:这就是决策树,但是问题来了,这是我买苹果的决策树。但是如果不知道我的规则,只给一堆用户数据,比如告诉你天气和超市是否关门(忘记关门肯定买不了这个常识吧,也可以换成其他的因素)然后给出一大堆买苹果和...

#决策树
python 数据挖掘(3)-- 数据特征分析

定量数据的分布分析这就不用多说了,直方图。求极差--> 设定组距-->决定分点 --> 统计频率定性数据的分布分析这也不用多说了,扇形图,条形图统计法对比分析折线图统计量分析均值,中位数,极差,标准之类的就不说了,介绍一下变异系数,它是 标准差除以平均值 。反映了标准差相对于均值的离中趋势。数据:catering_sale.xls#-*- cod...

#python#数据挖掘
python 数据挖掘(6)-- 数据标准化 和 离散化

标准化数据规划化处理是数据挖掘的一项基础工作,为了消除指标之间的量纲和取值范围差异的影响。(1)最小 - 最大规范化 将数据映射到 [min,max](2)零-均值规划化 将数据处理成均值为 0 ,标准差为 1(3)小数定标规划化处理 normalization_data.xls 数据规范化如下#-*- coding:utf-8 -*-import p...

    共 15 条
  • 1
  • 2
  • 请选择