
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
前言回归和分类方法是机器学习中经常用到的方法,本文首先介绍这两种方法的区别和联系,然后对分类方法中的逻辑回归进行较详细的说明(包括其基本原理及评估指标),最后结合案例介绍如何利用Python进行逻辑回归分析。一、分类与回归1.1什么是分类和回归区分回归问题和分类问题:回归问题:输入变量和输出变量均为连续变量的问题;分类问题:输出变量为有限个离散变量的问题。因此分类及回归分别...
一、问题1:留存率计算字段及表说明:表名:user_log字段名:log_day:登录日期device_id:用户设备idapp_id:用户app的id,其中device_id和app_id确定唯一的用户1.1计算某日留存率(次日、3日、7日、30日)--计算次日、3日、7日、30日留存率select log_day,count(user_id_d1)/count(user_id...
一、初识Hadoop以一个小故事解释什么是Hadoop:小明接到一个任务:计算一个100M的文本文件中的单词的个数,这个文本文件有若干行,每行有若干个单词,每行单词与单词之间均以空格键隔开。对于处理这种100M量级数据的计算任务,小明觉得很轻松。他首先把这个100M的文件拷贝到自己的电脑上,然后写了个计算程序在他的计算机上执行并顺利输出了结果。后来,小明接到了另外一个任务,计算一个1T(10...
参考链接:深入浅出机器学习算法:定序回归机器学习:保序回归(IsotonicRegression):一种可以使资源利用率最大化的算法scikit-learn一般实例之一:保序回归(Isotonic Regression)
一、Python中缺失值分类Python中有三种缺失值(空值):| 形式 |含义||–|--|| None | Python内置的None值,如创建一个空的列表list=[] || NA | 在pandas中,将缺失值表示为NA,表示不可用not available,主要表示为np.nan|| NaN | 对于数值数据,pandas使用浮点值NaN(Not a Number)表示...
一、drop_duplicates函数用途pandas中的drop_duplicates()函数可以通过SQL中关键字distinct的用法来理解,根据指定的字段对数据集进行去重处理。二、drop_duplicates()函数的具体参数用法:DataFrame.drop_duplicates(subset=None, keep=‘first’, inplace=False)...







