logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Python学习笔记——聚类算法:K-means、凝聚层次聚类、基于密度聚类

在单链接聚类中,两个聚类之间的链接距离是两个聚类中最接近的两个点的距离。在方阵中,行和列都代表城市,对角线上的元素是城市与自己之间的距离,非对角线上的元素是城市之间的距离。‘average’(平均链接):平均链接聚类中,两个聚类之间的链接距离是所有成对点的距离的平均值。‘complete’(完全链接):与单链接方法相反,完全链接聚类中,两个聚类之间的链接距离是两个聚类中最远的两个点的距离。K均值聚

文章图片
#算法#python#学习 +2
Python学习笔记——人工神经网络ANN(Artificial Neural Network )

k折交叉验证(k-fold cross-validation)是一种评估机器学习模型性能的方法,它通过将训练集分成 k 个大小相等的子集(折叠或折数),然后选择 k-1 个子集作为训练集,剩下的一个子集作为验证集(或测试集),对模型进行 k 次这样的迭代。每次迭代都会评估模型的性能,并使用所有 k 次评估的平均性能来代表模型的整体性能。训练集的每条记录用于训练的次数相同,并且恰好被检验一次。

文章图片
#学习#python#神经网络 +1
数分一般步骤——数据清洗/预处理

【代码】数分一般步骤——数据清洗/预处理。

文章图片
#python#开发语言
Python数据分析——探索Iris纸鸢花数据

DataFrame 中设置特定的值为学生数组(None 在 Python 中通常表示 NoneType 类型,但在 pandas 中它代表 NaN,即 Not a Number,表示缺失值)。DataFrame 的前 3 行(包含第 1 行、第 2 行和第 3 行),以及所有列,并将这些行的所有值设置为 None。指定了填充缺失值的方法为 “backfill” 或 “bfill”,这是一种向前填充

文章图片
#python#数据分析#开发语言
Python数据分析——分析全球酒类消费数据

mean’ 函数计算平均值,‘max’ 函数找到每个组中的最大值,而 ‘min’ 函数找到每个组中的最小值。这意味着数据将根据不同的大陆进行划分,每个大陆的数据将被视为一个组。这意味着数据将根据不同的大陆进行划分,每个大陆的数据将被视为一个组。这意味着数据将根据不同的大陆进行划分,每个大陆的数据将被视为一个组。这意味着数据将根据不同的大陆进行划分,每个大陆的数据将被视为一个组。: 这部分指定了要对

文章图片
#python#数据分析#开发语言
Python数据分析常规步骤整理

本文摘要: 《Python数据处理与机器学习全流程指南》系统介绍了从数据预处理到建模的完整流程。主要内容包括:1)数据清洗(缺失值处理、异常值检测、数据类型转换);2)数据预处理(特征编码、标准化、特征工程);3)数据分析(统计描述、分组聚合、相关性分析);4)可视化方法(Matplotlib基础图表、Seaborn高级图表);5)机器学习建模流程(逻辑回归、随机森林、XGBoost等模型的训练评

文章图片
#python#数据分析#开发语言
SQL性能调优

MySQL性能优化指南 主要问题:全表扫描、复杂查询、大数据量表 核心方案:索引优化(覆盖索引、复合索引)、查询简化、执行计划分析 监控手段:慢查询日志+EXPLAIN分析 进阶技巧:数据分片、缓存机制、参数调优 优化思路:诊断瓶颈→设计索引→验证效果的系统工程

#sql#数据库
Python数据分析——分析欧洲杯数据集

iloc[]是 pandas DataFrame 的一个方法,用于基于整数的位置索引来选择数据。表示选择所有的行。:-3表示选择列的范围,从第一列(索引为0)到最后第三列(索引为-3)之前的所有列。在Python中,负数索引表示从最后一项开始倒数,因此:-3会包含索引为0到索引为-4的所有列,但不包括索引为-3的列。因此,会返回一个新的 DataFrame,其中包含euro的所有列,但不包括最后一

文章图片
#python#pandas
SQL-牛客面经八股

数据库索引与查询优化摘要:B+树因其多路平衡、范围查询和高效磁盘I/O特性成为主流索引结构,相比红黑树更适合大数据场景。索引类型包括聚簇/非聚簇、联合索引等,使用时需遵循最左前缀原则。常见优化手段包括:合理设计索引(避免冗余、覆盖索引)、优化SQL结构(简化JOIN、精准SELECT)、利用执行计划分析慢查询(EXPLAIN工具)、批量操作时禁用索引等。对于千万级大表,建议采用分区分表、游标分页等

#sql#数据库
Python学习笔记——机器学习

计算机通过分析这些数据,学习如何识别模式和特征,从而能够对新的、未见过的数据做出准确的预测或分类。在实际应用中,特征数据和目标数据通常是一起提供的,例如在一个数据集中,特征数据可能包括身高、体重、年龄等,而目标数据则是健康状况或疾病诊断。在机器学习中,“标签”是指给数据添加的标记或注释,它们提供了关于数据的信息或数据的正确答案。在回归问题中,标签可能是数值,如水果的重量或价格。例如,如果我们要构建

文章图片
#python#学习#机器学习
    共 14 条
  • 1
  • 2
  • 请选择