logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Hadoop分布式资源管理框架【Yarn】

YARN是一个分布式资源管理系统,采用主从架构(ResourceManager和NodeManager),支持多种计算框架(如MapReduce、Spark)。其高可用性通过ZooKeeper实现主备切换和元数据同步。YARN提供三种资源调度策略:FIFO(先进先出)、Capacity(预设队列资源比例)和Fair(动态公平分配)。Capacity调度器允许队列弹性使用空闲资源,而Fair调度器默

文章图片
#分布式#hadoop#大数据
2022第五届“泰迪杯”数据分析技能赛-B题-银行客户忠诚度分析(上)

目录任务1 数据探索与清洗任务1.1 数据探索与预处理任务1.2 特征编码任务2 产品营销数据可视化分析任务2.1 任务2.2任务2.3任务2.4 任务3 客户流失因素可视化分析任务3.1任务3.2任务3.3任务3.4分别对短期客户产品购买数据“short-customer-data.csv”(简称短期数据)和长期客户资源信息数据的训练集“long-customer-train.csv”(简称长期

#数据分析#python#数据挖掘
Python数据抽样

分层抽样是先将所有个体样本按照某种特征划分为几个类别,然后从每个类别中使用随机抽样或等距抽样的方法选择个体组成样本。这种方法跟之前3种方法的差异点在于该方法抽取的是小群体集,不是每个数据个体本身。等距抽样是先将总体中的每个个体按顺序编号,然后计算出抽样间隔,再按照固定抽样间隔抽取个体。该方法适用于个体分布均匀或呈现明显的均匀分布规律,无明显趋势或周期性的规律的数据。简单随机抽样是按等概率原则直接从

#python
超参数优化 - 贝叶斯优化的实现

实现贝叶斯优化的库:bayesian-optimization,hyperopt,optuna。目标函数的值即𝑓(𝑥)的值。贝叶斯优化会计算𝑓(𝑥)在不同𝑥上的观测值,因此𝑓(𝑥)的计算方式需要被明确。在HPO过程中,我们希望能够筛选出令模型泛化能力最大的参数组合,因此𝑓(𝑥)应该是损失函数的交叉验证值或者某种评估指标的交叉验证值。① 目标函数的输入必须是具体的超参数,而不能是整

#算法#机器学习#集成学习
python数据离散化

离散化,就是把无限空间中有限的个体映射到有限的空间中。数据离散的操作大多是针对连续数据进行的,处理之后的数据值域分布将从连续属性变为离散属性。离散化通常针对连续数据进行处理,但是在很多情况下也可以针对已经是离散化的数据进行处理,这种场景一般是离散数据本身的划分过于复杂、琐碎甚至不符合业务逻辑,需要进一步做数据聚合或重新划分。

#python#开发语言
创意平板折叠桌-数学建模

某公司生产一种可折叠的桌子,桌面呈圆形,桌腿随着铰链的活动可以平摊成一张平板(如图1-2所示)。桌腿由若干根木条组成,分成两组,每组各用一根钢筋将木条连接,钢筋两端分别固定在桌腿各组最外侧的两根木条上,并且沿木条有空槽以保证滑动的自由度(见图3)。桌子外形由直纹曲面构成,造型美观。附件视频展示了折叠桌的动态变化过程。

文章图片
#学习#matlab
Pmdarima实现单变量时序预测与交叉验证

滚动交叉验证是在验证过程中不断增加训练集、并让验证集越来越靠近未来的验证方式。滑窗交叉验证就是使用窗内的样本作为训练集,窗右侧(或下方)的样本作为验证集而进行的交叉验证。通常来说,验证集上的分数最佳的模型过拟合风险往往最小,因为当一个模型学习能够足够强、且既不过拟合又不欠拟合的时候,模型的训练集和验证集分数应该是高度接近的,所以验证集分数越好,验证集的分数就越可能更接近训练集上的分数。在多个模型对

软考中级数据库系统工程师-第6-7章 数据库技术基础&关系数据库

3)广义笛卡尔积:两个元数分别为m和n的关系R和S的广义笛卡尔积是一个(m+n)列的元组的集合。PS:三方联系和聚合的区别:三方联系必须要三方实体同时参与,而聚合是有先后顺序的,两个实体先产生联系,再与第三个实体产生联系。也称存储模式,是数据物理结构和存储方式的描述,是数据在数据库内部的表示方式。Y,那么对于任意两个相同的X,所对应的Y一定是相同的。是数据库中全部数据的逻辑结构和特征的描述,只设计

文章图片
#数据库#sql
朴素贝叶斯及概率类模型评估指标

class sklearn.naive_bayes.GaussianNB(priors=None,var_smoothing=1e-09) 高斯朴素贝叶斯,通过假设是服从高斯分布(也就是正态分布)来估计每个特征每个类别的条件概率。对于每个特征下的取值,高斯朴素贝叶斯有如下公式:对于任意一个Y的取值,贝叶斯都以求解最大化的为目标,这样才能够比较在不同标签下样本究竟更靠近哪一个取值。以最大化为目标,高

#机器学习#sklearn#算法
集成学习Bagging——随机森林模型

随机森林是机器学习领域最常用的算法之一,其算法构筑过程非常简单:从提供的数据中随机抽样出不同的子集,用于建立多棵不同的决策树,并按照Bagging的规则对单棵决策树的结果进行集成(回归则平均,分类则少数服从多数)。因此在随机森林回归器的参数当中,有数个关于数据随机抽样的参数。决策树的可以完美学习训练集上的内容,达到RMSE=0的程度。

#集成学习#随机森林#机器学习
    共 40 条
  • 1
  • 2
  • 3
  • 4
  • 请选择