logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

pycharm配置python解释器

1.点击file>settings2.点击project:interpreter,点击后面的齿轮,然后点add3.点击…选择本地python解释器make available to all projects 勾选上以后,创建新的项目默认使用当前配置的python解释器4.点击apply>ok即可...

#python#pycharm
sklearn中train_test_split参数的详细介绍

sklearn中train_test_split()函数可以把数据集切分为随机的训练数据集和测试数据集。下面是源代码中的举例:X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)参数信息如下:参数含义x数据集中特征的集合y数据集中标签的集合test_size如果数值在0-

#机器学习#python
机器学习:监督学习与无监督学习的区别

监督学习:根据现有的数据集,知道输入和输出结果,也就是已知特征和标签的对应关系。根据这种已知的关系,训练得到最优的模型。在监督学习的数据集中,既有特征(feature)信息又有标签(label)信息。通过训练,使得机器找到特征和标签之间的关系(训练得到最优模型)。在新的数据集中,只有特征信息没有标签,让机器根据训练的模型自动去判断出标签。举个栗子:我们知道适当的水分和充足的光照可以使植物的生长速度

#机器学习#python
机器学习之保存训练模型

话不多说,直接进入正题。1.首先导入joblib包import joblib2.训练好模型之后,即可保存模型到本地joblib.dump(模型实例名称,本地路径/文件名称)比如:joblib.dump(lr, r'G:\学习文件\机器学习\import_learing\predict_card.sav')3.最后在新的文件中导入模型并代入特征数据import joblibtrain_module

#机器学习#python
通过pip命令安装好包之后,在pycharm中不显示此库,也不能调用

在cmd输入pip list 命令可以看到我的库都已经安装好了,但是pycharm中却没有显示。原因: 电脑中存在多个版本的python(anaconda也算),pycharm选择的python解释器和使用pip命令的解释器不是同一个。**解决方法:**参考这篇博客:https://blog.csdn.net/FlatTiger/article/details/109814966。重新选择一下本地

#python
关于python文件读写的路径问题

对于初学文件读写的小伙伴来说,经常会遇到文件路径不知道怎么写的问题。要搞明白这个问题,就要理解绝对路径与相对路径。首先说一下什么是绝对路径,绝对路径是当前文件在计算机磁盘中存放的具体位置。比如说:我的E盘data文件夹下的test_data文件夹下有一个data.csv文件,就像下面这张图:这个文件的绝对路径就是C:\data\test_data代码实例:with open(r'E:\data\t

#python
大数据场景下使用SQL求UV和PV的问题

表数据现有user_age表如下:user_app表如下:需求求:0-10岁的用户、11-20岁的用户、21-30岁的用户、30岁以上的用户使用app的人数(uv)和次数(pv)。分析需求乍一看不难,但是如何实现同时求出uv和pv?有的同学可能最先想到的就是uv = count(distinct uid),pv = count(*)。在MySQL中这样写固然可以得到结果,但是在大数据场景中呢?如果

Flume使用之监听指定端口并打印到控制台

本案例端口监听使用的是netcat,如果使用虚拟机模拟实现,可以先执行yum -y install nc。自定义flume的配置文件,注意文件名要以.conf结尾。# 定义agent名字 a1# 定义sources、channels、sinks都可以有多个,空格隔开a1.sources = r1a1.channels = c1a1.sinks = k1# 定义source类型a1.sources.

#flume#hadoop
Flink作业提交流程(Yarn集群模式)

会话模式1.客户端通过REST接口,将作业提交给分发器。2.分发器启动JobMaster,并将Job资源提交到JobMaster。3.JobMaster向Flink的资源管理器请求资源(slots)。4.Flink的资源管理器向Yarn资源管理器请求Container容器。5.Yarn资源管理器启动新的TaskManager容器。6.TaskManager向Flink的资源管理器注册自己可用的sl

#flink
Flume自定义拦截器

需求定义两个拦截器,一个用于过滤不合法数据,一个用于区分日志类型。ETL拦截器主要用于,过滤时间戳不合法和Json数据不完整的日志。日志类型区分拦截器主要用于,将启动日志和事件日志区分开来,方便发往Kafka的不同Topic。导入依赖<dependencies><dependency><groupId>org.apache.flume</groupId&g

#flume
    共 13 条
  • 1
  • 2
  • 请选择