logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

机器学习中为什么要对特征做数据归一化?

对于线性模型来说,对特征做数据归一化是为了使不同的特征处于同样的量级范围内,不至于出现某些特征所占比重过大,从而主导预测结果。另外,归一化可以提升收敛速度。对于梯度下降优化的算法,如果我们的数据没有做归一化,会导致特征空间的不规则性,求最优解过程中,很可能会导致Z字形路线,需要迭代多次才能收敛。归一化之后,在梯度下降进行求解时能较快的收敛。归一化方法:1)x=(x−min)/(max−min)这种

#机器学习#python
sklearn中train_test_split参数的详细介绍

sklearn中train_test_split()函数可以把数据集切分为随机的训练数据集和测试数据集。下面是源代码中的举例:X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)参数信息如下:参数含义x数据集中特征的集合y数据集中标签的集合test_size如果数值在0-

#机器学习#python
通过pip命令安装好包之后,在pycharm中不显示此库,也不能调用

在cmd输入pip list 命令可以看到我的库都已经安装好了,但是pycharm中却没有显示。原因: 电脑中存在多个版本的python(anaconda也算),pycharm选择的python解释器和使用pip命令的解释器不是同一个。**解决方法:**参考这篇博客:https://blog.csdn.net/FlatTiger/article/details/109814966。重新选择一下本地

#python
关于python文件读写的路径问题

对于初学文件读写的小伙伴来说,经常会遇到文件路径不知道怎么写的问题。要搞明白这个问题,就要理解绝对路径与相对路径。首先说一下什么是绝对路径,绝对路径是当前文件在计算机磁盘中存放的具体位置。比如说:我的E盘data文件夹下的test_data文件夹下有一个data.csv文件,就像下面这张图:这个文件的绝对路径就是C:\data\test_data代码实例:with open(r'E:\data\t

#python
Flume自定义拦截器

需求定义两个拦截器,一个用于过滤不合法数据,一个用于区分日志类型。ETL拦截器主要用于,过滤时间戳不合法和Json数据不完整的日志。日志类型区分拦截器主要用于,将启动日志和事件日志区分开来,方便发往Kafka的不同Topic。导入依赖<dependencies><dependency><groupId>org.apache.flume</groupId&g

#flume
sklearn缺失值处理

处理方式1.删除:如果某一行或者某一列缺失值所占比重过大,那么可以删除此行或者此列。2.插补:通过每行或者每列的平均值、中位数,对空值进行填充。通常我们使用插补法,按照每列特征的平均值或者中位数进行填充。代码实现import numpy as npfrom sklearn.impute import SimpleImputer# 老版本的sklearn需要引用如下API# import sklea

Flink将数据写入到Kafka

import org.apache.flink.api.common.serialization.SimpleStringSchema;import org.apache.flink.streaming.api.datastream.DataStreamSource;import org.apache.flink.streaming.api.environment.StreamExecutionE

#kafka#flink#big data
到底了