
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
机器学习(六):Logistic回归(优化篇)在上一节的机器学习(六):Logistic回归(基础篇)写的代码所需要的时间复杂度太高。下面这篇文章将对算法进行一些改进,从而减少计算量,使其可以用在大数据集上。改进的随机梯度上升算法梯度上升算法在每次更新回归系数(最优参数)时,都需要遍历整个数据集。可以看一下我们之前写的梯度上升算法:def gradAscent(dataSet, label...
数据挖掘pandas技巧(一):groupby介绍python跟其他语言不相同的地方就是有着千千万万个函数,你不可能全部学得完。所以,在日常生活中,要多去学习和回顾一下python中的新函数,新操作,这样不会让你的代码质量停滞不前。本文主要介绍groupby函数的使用。这几个函数作用类似,都是对数据集中的一类属性进行聚合,分组运算操作。groupbyimport pandas as pd...
数据处理(一):数据质量分析导入数据空值分析异常值分析数据特征分析数据质量分析是数据挖掘中数据准备过程中的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础。数据质量分析主要任务是检查原始数据中是否存在脏数据,脏数据指的是不符合要求,以及不能直接进行分析的数据。常见的脏数据包括如下:1.缺失值2.异常值3.不一致的值4.重复数据及含有特殊符号(如#,¥,...
机器学习中有两类的大问题,一个是分类,一个是聚类。在生活中,我们常常没有过多的去区分这两个概念,觉得聚类就是分类,分类也差不多就是聚类,感觉两个没什么太大的区别。下面,我们就具体来研究下分类与聚类之间在数据挖掘中本质的区别。分类算法1.分类算法的说法:分类(classification):分类任务就是通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y中。分类是根据一...
拉格朗日乘子法(Lagrange Multiplier) 之前在高中就有一直听到拉格朗日,拉格朗日是一个很牛逼哄哄的大佬。在学习SVM的时候,居然也见到了他的身影。让我们了解一下拉格朗日乘子法的具体内容。 在学习过程中,有时会遇到一些最优化问题。这里提到的最优化问题通常是指对于给定的某一函数,求其在指定作用域上的全局最小值(无论最大最小值都可以转化为最小值),二者均是求解最优化问题的方法不同之..
Flume2 下载安装Flume 安装地址Flume 官网地址http://flume.apache.org/文档查看地址http://flume.apache.org/FlumeUserGuide.html下载地址http://archive.apache.org/dist/flume/安装部署将 apache-flume-1.7.0-bin.tar.gz 上传到 linux 的/opt/sof







