logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Python学习笔记——聚类算法:K-means、凝聚层次聚类、基于密度聚类

在单链接聚类中,两个聚类之间的链接距离是两个聚类中最接近的两个点的距离。在方阵中,行和列都代表城市,对角线上的元素是城市与自己之间的距离,非对角线上的元素是城市之间的距离。‘average’(平均链接):平均链接聚类中,两个聚类之间的链接距离是所有成对点的距离的平均值。‘complete’(完全链接):与单链接方法相反,完全链接聚类中,两个聚类之间的链接距离是两个聚类中最远的两个点的距离。K均值聚

文章图片
#算法#python#学习 +2
数分一般步骤——数据清洗/预处理

【代码】数分一般步骤——数据清洗/预处理。

文章图片
#python#开发语言
Python学习笔记——人工神经网络ANN(Artificial Neural Network )

k折交叉验证(k-fold cross-validation)是一种评估机器学习模型性能的方法,它通过将训练集分成 k 个大小相等的子集(折叠或折数),然后选择 k-1 个子集作为训练集,剩下的一个子集作为验证集(或测试集),对模型进行 k 次这样的迭代。每次迭代都会评估模型的性能,并使用所有 k 次评估的平均性能来代表模型的整体性能。训练集的每条记录用于训练的次数相同,并且恰好被检验一次。

文章图片
#学习#python#神经网络 +1
Python数据分析——探索Iris纸鸢花数据

DataFrame 中设置特定的值为学生数组(None 在 Python 中通常表示 NoneType 类型,但在 pandas 中它代表 NaN,即 Not a Number,表示缺失值)。DataFrame 的前 3 行(包含第 1 行、第 2 行和第 3 行),以及所有列,并将这些行的所有值设置为 None。指定了填充缺失值的方法为 “backfill” 或 “bfill”,这是一种向前填充

文章图片
#python#数据分析#开发语言
Python数据分析——分析全球酒类消费数据

mean’ 函数计算平均值,‘max’ 函数找到每个组中的最大值,而 ‘min’ 函数找到每个组中的最小值。这意味着数据将根据不同的大陆进行划分,每个大陆的数据将被视为一个组。这意味着数据将根据不同的大陆进行划分,每个大陆的数据将被视为一个组。这意味着数据将根据不同的大陆进行划分,每个大陆的数据将被视为一个组。这意味着数据将根据不同的大陆进行划分,每个大陆的数据将被视为一个组。: 这部分指定了要对

文章图片
#python#数据分析#开发语言
SQL性能调优

MySQL性能优化指南 主要问题:全表扫描、复杂查询、大数据量表 核心方案:索引优化(覆盖索引、复合索引)、查询简化、执行计划分析 监控手段:慢查询日志+EXPLAIN分析 进阶技巧:数据分片、缓存机制、参数调优 优化思路:诊断瓶颈→设计索引→验证效果的系统工程

#sql#数据库
SQL-牛客面经八股

数据库索引与查询优化摘要:B+树因其多路平衡、范围查询和高效磁盘I/O特性成为主流索引结构,相比红黑树更适合大数据场景。索引类型包括聚簇/非聚簇、联合索引等,使用时需遵循最左前缀原则。常见优化手段包括:合理设计索引(避免冗余、覆盖索引)、优化SQL结构(简化JOIN、精准SELECT)、利用执行计划分析慢查询(EXPLAIN工具)、批量操作时禁用索引等。对于千万级大表,建议采用分区分表、游标分页等

#sql#数据库
Python学习笔记——分类技术(决策树和随机森林)

随机森林就像这个情况。它是由很多棵决策树组成的,每棵决策树都是用来解决同一个问题的,但是每棵树都是在一个不同的数据集上训练的,就像你向不同的人询问路线。你可以问很多当地人,每个当地人可能会给你一个不同的答案,有的可能会告诉你走这条路,有的可能会告诉你走那条路。在机器学习中,后剪枝是在模型训练完成,生成了一个完整的模型之后,通过评估每个节点的性能,去除那些对预测任务没有实际帮助的部分,从而简化模型。

文章图片
#学习#python#数据分析 +3
到底了