logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

HDFS分布式文件系统(Hadoop Distributed File System)

那这节课呢,我们按照这几方面来讲:首先看一下HDFS的简介,认识一下HDFS;然后的话原理部分这一块,我们重点掌握它的架构部分;那在第三第四部分操作命令和运营管理这一块,我们看一下它怎么去使用。首先看一下简介部分:什么是HDFS?它有哪些优缺点?那什么是HDFS呢?我们在上节课其实也有一个基本认识了。HDFS,它的全称是Hadoop Distributed File System(Hadoop分布

文章图片
#hdfs#hadoop#大数据
Python数据分析——分析全球酒类消费数据

mean’ 函数计算平均值,‘max’ 函数找到每个组中的最大值,而 ‘min’ 函数找到每个组中的最小值。这意味着数据将根据不同的大陆进行划分,每个大陆的数据将被视为一个组。这意味着数据将根据不同的大陆进行划分,每个大陆的数据将被视为一个组。这意味着数据将根据不同的大陆进行划分,每个大陆的数据将被视为一个组。这意味着数据将根据不同的大陆进行划分,每个大陆的数据将被视为一个组。: 这部分指定了要对

文章图片
#python#数据分析#开发语言
Python学习笔记——聚类算法:K-means、凝聚层次聚类、基于密度聚类

在单链接聚类中,两个聚类之间的链接距离是两个聚类中最接近的两个点的距离。在方阵中,行和列都代表城市,对角线上的元素是城市与自己之间的距离,非对角线上的元素是城市之间的距离。‘average’(平均链接):平均链接聚类中,两个聚类之间的链接距离是所有成对点的距离的平均值。‘complete’(完全链接):与单链接方法相反,完全链接聚类中,两个聚类之间的链接距离是两个聚类中最远的两个点的距离。K均值聚

文章图片
#算法#python#学习 +2
Python学习笔记——人工神经网络ANN(Artificial Neural Network )

k折交叉验证(k-fold cross-validation)是一种评估机器学习模型性能的方法,它通过将训练集分成 k 个大小相等的子集(折叠或折数),然后选择 k-1 个子集作为训练集,剩下的一个子集作为验证集(或测试集),对模型进行 k 次这样的迭代。每次迭代都会评估模型的性能,并使用所有 k 次评估的平均性能来代表模型的整体性能。训练集的每条记录用于训练的次数相同,并且恰好被检验一次。

文章图片
#学习#python#神经网络 +1
数分一般步骤——数据清洗/预处理

【代码】数分一般步骤——数据清洗/预处理。

文章图片
#python#开发语言
Python数据分析——探索Iris纸鸢花数据

DataFrame 中设置特定的值为学生数组(None 在 Python 中通常表示 NoneType 类型,但在 pandas 中它代表 NaN,即 Not a Number,表示缺失值)。DataFrame 的前 3 行(包含第 1 行、第 2 行和第 3 行),以及所有列,并将这些行的所有值设置为 None。指定了填充缺失值的方法为 “backfill” 或 “bfill”,这是一种向前填充

文章图片
#python#数据分析#开发语言
Python数据分析——分析全球酒类消费数据

mean’ 函数计算平均值,‘max’ 函数找到每个组中的最大值,而 ‘min’ 函数找到每个组中的最小值。这意味着数据将根据不同的大陆进行划分,每个大陆的数据将被视为一个组。这意味着数据将根据不同的大陆进行划分,每个大陆的数据将被视为一个组。这意味着数据将根据不同的大陆进行划分,每个大陆的数据将被视为一个组。这意味着数据将根据不同的大陆进行划分,每个大陆的数据将被视为一个组。: 这部分指定了要对

文章图片
#python#数据分析#开发语言
Python数据分析常规步骤整理

本文摘要: 《Python数据处理与机器学习全流程指南》系统介绍了从数据预处理到建模的完整流程。主要内容包括:1)数据清洗(缺失值处理、异常值检测、数据类型转换);2)数据预处理(特征编码、标准化、特征工程);3)数据分析(统计描述、分组聚合、相关性分析);4)可视化方法(Matplotlib基础图表、Seaborn高级图表);5)机器学习建模流程(逻辑回归、随机森林、XGBoost等模型的训练评

文章图片
#python#数据分析#开发语言
SQL性能调优

MySQL性能优化指南 主要问题:全表扫描、复杂查询、大数据量表 核心方案:索引优化(覆盖索引、复合索引)、查询简化、执行计划分析 监控手段:慢查询日志+EXPLAIN分析 进阶技巧:数据分片、缓存机制、参数调优 优化思路:诊断瓶颈→设计索引→验证效果的系统工程

#sql#数据库
Python数据分析——分析欧洲杯数据集

iloc[]是 pandas DataFrame 的一个方法,用于基于整数的位置索引来选择数据。表示选择所有的行。:-3表示选择列的范围,从第一列(索引为0)到最后第三列(索引为-3)之前的所有列。在Python中,负数索引表示从最后一项开始倒数,因此:-3会包含索引为0到索引为-4的所有列,但不包括索引为-3的列。因此,会返回一个新的 DataFrame,其中包含euro的所有列,但不包括最后一

文章图片
#python#pandas
    共 16 条
  • 1
  • 2
  • 请选择