logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

机器学习——画图方法

本篇博客与Titanic博客相关联,是其第2部分内容,由于涉及大量通过可视化图形 进行数据预览、分析的地方,因此独立成篇,作为画图方法的笔记。1、预览数据集加载数据集#-*-coding:utf-8-*-import numpy as np #科学计算import pandas as pd #数据分析from pandas import Series, D...

#机器学习#matplotlib
随机森林回归 sklearn.ensemble.RandomForestRegressor

随机森林回归:随机森林是一种目标估计,通过对数据集上的部分样本形成一个分类决策树,并使用averaging去提高预测准确率和控制过拟合发生。class sklearn.ensemble.RandomForestRegressor(n_estimators=10, criterion=’mse’, max_depth=None,min_samples_split=2, min_samples_l..

#sklearn#python
kaggle-旧金山犯罪分类详细讲解 (朴素贝叶斯、逻辑回归、随机森林方法)

前言记得一位老先生说,如果你所讲的知识不能让一个8岁孩子听懂,说明你还是没真正掌握。本文秉持这样的理念,先给出全部代码,让读者一窥全貌,再逐段详细讲解。旧金山犯罪分类kaggle地址0、旧金山犯罪分类代码import pandas as pdimport numpy as np# 1、载入数据train = pd.read_csv('dataset/...

#机器学习#numpy#pandas
学习曲线-Learning Curve

学习曲线是什么?【简单来说】学习曲线(learning curve)来判断模型状态:过拟合欠拟合【详细来说】学习曲线是不同训练集大小,模型在训练集和验证集上的得分变化曲线。也就是以样本数为横坐标,训练和交叉验证集上的得分(如准确率)为纵坐标。learning curve可以帮助我们判断模型现在所处的状态:过拟合(overfiting / high variance) or ...

#机器学习
非参数估计---直方图法、Kn近邻估计法、Parzen窗法

当需要估计的概率密度函数的形式未知,比如我们并不能知道样本的分布形式时,我们就无法用最大似然估计方法或贝叶斯估计方法来进行参数估计,而应该用非参数估计方法。这里就介绍三种非参数估计方法。 需要知道的是,作为非参数方法的共同问题是对样本数量需求较大,只要样本数目足够大众可以保证收敛于任何复杂的位置密度,但是计算量和存储量都比较大。当样本数很少时,如果能够对密度函数有先验认识,则参数估计能取得更好的估

#机器学习
激活函数-sigmod tanh relu leaky-relu

神经网络每个神经元都需要激活函数(Activation Function)来进行非线性运算。逻辑回归模型使用的 Sigmoid 函数,也是一种激活函数。下面重点介绍几个神经网络常用的激活函数 g(x),并作个简单比较。观察 Sigmoid 函数和 tanh 函数,我们发现有这样一个问题,就是当 |z| 很大的时候,激活函数的斜率(梯度)很小。因此,在这个区域内,梯度下降算法会运行得比较慢...

#深度学习
DNN实战-猫狗分类

深层的神经网络来解决一个猫、狗的分类问题。这是一个典型的二分类问题。输入是一张图片,我们会把 3 通道的 RGB 图片拉伸为一维数据作为神经网络的输入层。神经网络的输出层包含一个神经元,经过 Softmax 输出概率值P,若 P>0.5,则判断为猫(正类),若 P≤0.5,则判断为非猫(负类)。对于整个神经网络模型,我们可以选择

#深度学习
用Python实现Hadoop实时作业状态监控

基于Python的Hadoop实时作业状态监控前言:  任务需要,要求完成这么一个程序,恰好博主以前在虚拟机上部署过hadoop,但是部署完后一直没用过,这次就来尝试下吧。进入正题:一、环境及工具:ubuntu14.04 LTSHadoopPythonPycURL二、关于 API  先把语言放在一边,要想监控hadoop的作业状态,那hadoop至少要提供相应的A

#python#hadoop#ubuntu
到底了