logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Java-03 深入浅出 MyBatis - 快速入门(无 Spring) 增删改查 核心配置讲解 XML 与 注解映射

MyBatis 的映射主要由 XML 映射文件 和 注解方式 实现,将数据库的表结构映射到 Java 对象上。MyBatis 映射通过 XML 和注解方式提供了灵活的 SQL 控制能力,适合需要手动编写 SQL 的场景。XML 映射文件适合复杂逻辑,而注解方式更适合简单场景。掌握 MyBatis 的映射能力,可以更高效地完成数据持久化操作,同时保持代码的可维护性和可读性。

文章图片
#java#mybatis#spring +3
大数据-199 数据挖掘 机器学习理论 - 决策树 模型 决策与条件 香农熵计算

左图表示了特征空间的一个划分,假定现在只有 W10 和 W20 两个决策点,特征空间被决策点沿轴划分,并且相继划分相互正交,每个小矩形表示一个区域,特征空间上的区域构成了集合,X 取值为区域的集合。由于决策树表示一个条件概率的分布,所以深浅不同的决策树对应着不同的复杂度的概率模型,其中决策树的生成只考虑局部最优,相对的,决策树的剪枝则考虑全局最优。在每个节点应用一个测试,并根据测试的输出确定一个分

文章图片
#数据挖掘#机器学习#大数据 +4
大数据-210 数据挖掘 机器学习理论 - 逻辑回归 scikit-learn 实现 penalty solver

但随着C的逐渐变大,正则化的强度越来越小,模型在训练集和测试集上表现呈现了上升趋势,直到C=0.8左右,训练集上的表现依然走高,但模型在未知数据集上的表现就开始下跌,这时候就是出现了过拟合。正则化参数,LogisticRegression默认带了正则化项,penalty参数可选择的值有1和2,分别对应L1的正则化和L2的正则化,默认是L2的正则化。可以看出,当我们选择L1正则化的时候,许多特征的参

文章图片
#数据挖掘#机器学习#大数据 +4
大数据-202 数据挖掘 机器学习理论 - 决策树 sklearn 绘制决策树 防止过拟合

在每次分支的时候,不使用全部特征,而是随机选取一部分特征,从中选取不纯度相关指标最优的作为分支用的节点。我们之前提过,无论决策树模型如何进化,在分支上的本质都还是追求某个不纯度相关的指标的优化,而正如我们提到的,不纯度是基于节点计算出来的,也就是说,决策树在建树时,是靠优化节点来追求一棵优化的树,但是最优的节点是能够保证最优的树吗?另外,因为信息熵对不纯度更加敏感,所以信息熵作为指标时,决策树的生

文章图片
#数据挖掘#机器学习#大数据 +4
大数据-255 离线数仓 - Atlas 数据仓库元数据管理 数据血缘关系 元数据

Atlas是Hadoop平台元数据框架:Atlas是一组可扩展的核心基础治理服务,使企业能够有效,高效的满足Hadoop中合规性要求,并能与整个企业数据生态系统集成Apache Atlas为组织提供了开放的元数据管理和治理功能,以建立数据资产的目录,对这些资产进行分类和治理,并为IT团队、数据分析团队提供围绕这些数据资产的协作功能。Apache Atlas 是一个开源的数据治理和元数据管理框架,最

文章图片
#大数据#数据仓库#hadoop +2
大数据-209 数据挖掘 机器学习理论 - 梯度下降 梯度下降算法调优

上节我们完成了如下的内容:分类技术是机器学习和数据挖掘应用中的重要组成部分,在数据学科中,约70%的问题属于分类问题。解决分类的算法也有很多,如:KNN,使距离计算来实现分类;决策树,通过构建直观易懂的树来实现分类。这里我们要展开的是Logistic回归,它是一种很常见的用来解决二元分类问题的回归方法,它主要是通过寻找最优参数来正确的分类原始数据。逻辑回归(Logistic Regression

文章图片
#大数据#数据挖掘#机器学习 +3
大数据-206 数据挖掘 机器学习理论 - 多元线性回归 回归算法实现 算法评估指标

这里需要注意的是,当使用矩阵分解来求解多元线性回归方程时,必须添加一列全为 1 的列,用于表征线性方程截距W0。其中 m 为数据集样例个数,以及 RMSE 误差的均方根,为 MSE 开平方后所得结果。在回归分析中,SSR 表示聚类中类似的组间平方和概念,译为:Sum of squares of the regression,由预测数据与标签均值之间差值的平方和构成。结果为 0.91,能够看出最终拟

文章图片
#数据挖掘#机器学习#回归 +3
大数据-200 数据挖掘 机器学习理论 - 决策树 数据集划分 决策树生成 ID3 C4.5

而在信息熵指数的指导下,决策树生成过程的局部最优条件也非常好理解:即在选取属性测试条件(attribute test condition)对某节点(数据集)进行切分的时候,尽可能选取使得该节点对应的子节点信息熵最小的特征进行切分。同时我们知道,全局最优树没有办法简单高效的获得,因此此处我们仍然要以局部最优方法来指导建模过程,并通过优化条件的设置,最终在每一步都是局部最优的条件下逐步接近最可能的全局

文章图片
#数据挖掘#机器学习#大数据 +3
大数据-212 数据挖掘 机器学习理论 - 无监督学习算法 KMeans 基本原理 簇内误差平方和

大家可以发现,我们的 Intertia 是基于欧几里得距离的计算公式得来的。第六次迭代之后,基本上质心的位置就不会再改变了,生成的簇也变得稳定,此时我们的聚类就完成了,我们可以明显看出,K-Means 按照数据的分布,将数据聚集成了我们规定的 4 类,接下来我们就可以按照我们的业务求或者算法需求,对四类数据进行不同的处理。我们认为,被分在同一个簇中的数据是有相似的,而不同的簇中的数据是不同的,当聚

文章图片
#数据挖掘#机器学习#算法 +3
大数据-197 数据挖掘 机器学习理论 - scikit-learn 泛化能力 交叉验证

在业务中,我们训练数据往往都是以往已经有的历史数据,但我们的测试数据却是新进入系统的数据,我们追求模型的效果,但是追求的是模型在未知数据集上的效果,在陌生的数据集上表现的能力被称为泛化能力,即我们追求的是模型的泛化能力。通常来说,我们认为经过验证集找出最终参数后的模型的泛化能力是增强了的,因此模型在未知数据(测试集)上的效果会更好,但尴尬的是,模型经过交叉验证在验证集上的调参之后,在测试集上的结果

文章图片
#机器学习#大数据#数据挖掘 +3
    共 88 条
  • 1
  • 2
  • 3
  • 9
  • 请选择