logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

泰坦尼克号遇难预测-朴素贝叶斯分类

题目来源https://www.kaggle.com/c/titanic,train.csv和test.csv分别为训练集和测试集(生还未知),建模之前必须进行必要的数据分析,比如将一些无关的列剔除掉,在这里只是简单的考量,实际工程中可能还要考虑数据的分布情况,比如均值、方差、每种属性下的存还比率等,并且将训练中的缺失记录剔除掉,利用平均值补齐测试集缺失值(也可以用预测的方法因为缺失不是很多)..

#python
分类模型原理及优缺点整理总结

https://blog.csdn.net/qq_29153321/article/details/105299243除了上篇博客提到的决策树与剪枝、bagging与随机森林、极端随机树、Adaboost、GBDT算法外,还有以下几种算法:1 KNNKNN算法不仅可以用于分类,还可以用于回归。通过找出一个样本的k个最近邻居,将这些邻居的某个(些)属性的平均值赋给该样本,就可以得到该样本...

决策树与剪枝、bagging与随机森林、极端随机树、Adaboost、GBDT算法原理详解

1、决策树基本概念:从一组无次序、无规则的实例中推理出决策树表示形式的分类规则。1.1 ID3具体方法是:从根节点开始,对节点计算所有可能的特征的信息增益,选择信息增益最大的特征作为节点的特征,由该特征的不同取值建立子节点;再对子节点递归调用以上方法,构建决策树。基础概念:- 熵:熵越大,随机变量的不确定性越大。- 条件熵:H(Y|X)表示在已知随机变量X的条件下...

cuda入门-numba加速和pycuda加速

Spark on GPU 计算本项目完整源码地址:https://github.com/angeliababy/SparkGPU_Offline项目博客地址: https://blog.csdn.net/qq_29153321/article/details/103988522本项目旨在研究GPU混合计算框架对Spark分布式计算进行加速,以下为研究测试代码代码目录结构:-|-batch...

Elasticsearch-SQL语法使用-菜鸟学习

ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。本人在使用Elasticsearch-SQL过程中的使用情况,仅供参考。..

CentOS 7 安装GPU版Tensorflow

一 环境参数操作系统:centos7.xPython:python3所需软件cuda_8.0.44_linux.runNVIDIA-Linux-x86_64-384.111.runcudnn-8.0-linux-x64-v6.0.tgz二 安装流程1.关闭UEFI在BIOS里面检查你的UEFI是否开启,如果开启的话请立马关掉它(这个很重要,因为它很有可能导致ke...

windows安装caffe+python

Caffe介绍Caffe是纯粹的C++/CUDA架构,支持命令行、Python和MATLAB接口;可以在CPU和GPU直接无缝切换工具准备Caffe(caffe-master): https://github.com/Microsoft/caffe,百度云下载:http://pan.baidu.com/s/1hs8ngpA 密码:ith0微软的Windows三方包(Nuget程序包):...

到底了