GitzLiu 个人主页

@GitzLiu

GitzLiu

2023-07-27 14:04:00 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

机器学习——画图方法

本篇博客与Titanic博客相关联，是其第2部分内容，由于涉及大量通过可视化图形进行数据预览、分析的地方，因此独立成篇，作为画图方法的笔记。1、预览数据集加载数据集#-*-coding:utf-8-*-import numpy as np #科学计算import pandas as pd #数据分析from pandas import Series, D...

#机器学习 #matplotlib

随机森林回归 sklearn.ensemble.RandomForestRegressor

随机森林回归：随机森林是一种目标估计，通过对数据集上的部分样本形成一个分类决策树，并使用averaging去提高预测准确率和控制过拟合发生。class sklearn.ensemble.RandomForestRegressor(n_estimators=10, criterion=’mse’, max_depth=None,min_samples_split=2, min_samples_l..

#sklearn #python

kaggle-旧金山犯罪分类详细讲解（朴素贝叶斯、逻辑回归、随机森林方法）

前言记得一位老先生说，如果你所讲的知识不能让一个8岁孩子听懂，说明你还是没真正掌握。本文秉持这样的理念，先给出全部代码，让读者一窥全貌，再逐段详细讲解。旧金山犯罪分类kaggle地址0、旧金山犯罪分类代码import pandas as pdimport numpy as np# 1、载入数据train = pd.read_csv('dataset/...

#机器学习 #numpy #pandas

学习曲线-Learning Curve

学习曲线是什么？【简单来说】学习曲线(learning curve)来判断模型状态：过拟合欠拟合【详细来说】学习曲线是不同训练集大小，模型在训练集和验证集上的得分变化曲线。也就是以样本数为横坐标，训练和交叉验证集上的得分（如准确率）为纵坐标。learning curve可以帮助我们判断模型现在所处的状态：过拟合（overfiting / high variance） or ...

#机器学习

非参数估计---直方图法、Kn近邻估计法、Parzen窗法

当需要估计的概率密度函数的形式未知，比如我们并不能知道样本的分布形式时，我们就无法用最大似然估计方法或贝叶斯估计方法来进行参数估计，而应该用非参数估计方法。这里就介绍三种非参数估计方法。需要知道的是，作为非参数方法的共同问题是对样本数量需求较大，只要样本数目足够大众可以保证收敛于任何复杂的位置密度，但是计算量和存储量都比较大。当样本数很少时，如果能够对密度函数有先验认识，则参数估计能取得更好的估

#机器学习

激活函数-sigmod tanh relu leaky-relu

神经网络每个神经元都需要激活函数（Activation Function）来进行非线性运算。逻辑回归模型使用的 Sigmoid 函数，也是一种激活函数。下面重点介绍几个神经网络常用的激活函数 g(x)，并作个简单比较。观察 Sigmoid 函数和 tanh 函数，我们发现有这样一个问题，就是当 |z| 很大的时候，激活函数的斜率（梯度）很小。因此，在这个区域内，梯度下降算法会运行得比较慢...

#深度学习

DNN实战-猫狗分类

深层的神经网络来解决一个猫、狗的分类问题。这是一个典型的二分类问题。输入是一张图片，我们会把 3 通道的 RGB 图片拉伸为一维数据作为神经网络的输入层。神经网络的输出层包含一个神经元，经过 Softmax 输出概率值P，若 P&amp;amp;amp;amp;amp;amp;gt;0.5，则判断为猫（正类），若 P≤0.5，则判断为非猫（负类）。对于整个神经网络模型，我们可以选择

#深度学习

用Python实现Hadoop实时作业状态监控

基于Python的Hadoop实时作业状态监控前言：　　任务需要，要求完成这么一个程序，恰好博主以前在虚拟机上部署过hadoop，但是部署完后一直没用过，这次就来尝试下吧。进入正题：一、环境及工具：ubuntu14.04 LTSHadoopPythonPycURL二、关于 API　　先把语言放在一边，要想监控hadoop的作业状态，那hadoop至少要提供相应的A

#python #hadoop #ubuntu

到底了