diggerTT 个人主页

@qingqing7

diggerTT

2023-01-14 19:39:23 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

项目实例---金融---用机器学习构建模型，进行信用卡反欺诈预测

来源：用机器学习构建模型，进行信用卡反欺诈预测反欺诈中所用到的机器学习模型有哪些？Logistic RegressionSVMsDecision trees

理工学---算法模型---传统机器学习---朴素贝叶斯

贝叶斯分类器是基于贝叶斯定理构建出来的分类器，是一个统计分类器。对分类方法进行比较的有关研究表明，简单贝叶斯分类器在分类性能上与决策树和神经网络都是可比拟的。在处理大规模数据时，贝叶斯分类器已经表现出较高的准确性和运算性能。贝叶斯分类器的假设是：指定类别中，样本各特征之间相互独立，即某一特征不同取值的概率与其他特征的取值没有任何关系。我们的目标是计算P(H/X)，式中X＝{x1,x2,…,xn}

#数据挖掘

数据基础---数据可视化

1、 python中数据可视化1.1、 seaborn库python中最常用的绘图工具包是matplotlib库，但是matplotlib中很多参数需要自己设置，灵活但繁琐，而且常常不知道如何设置（太多要设置的了）。这里主要对seaborn库进行介绍。官方文档。seaborn中的主要接口：1.1.1、轴和界面设置方面FaceGrid(data[,row,col,hue,col_wrap,…])

#python #数据可视化

理工学---数据基础---大数据---spark中的数据类型

本文是对官方文档的翻译整理1、数据类型Local vector(本地向量)Labeled point(带标签数据点)Local matrix(本地矩阵)Distrubuted matrix(分布式矩阵)：RowMatrix、IndexedRowMatrix、CoordinateMatrix、BlockMatrixMLlib支持存储在单个机器上的本地的向量和矩阵，以及一个或多个RDD组

#spark #分布式

理工学---数据基础---大数据---pyspark使用方法练习

来源，官网spark1.6.1版本

#spark

理工学---数据基础---大数据---Spark Submit提交应用程序及yarn

本部分来源，也可以到spark官网查看英文版。使用spark-submit时，应用程序的jar包以及通过—jars选项包含的任意jar文件都会被自动传到集群中。spark-submit --class--master--jars Spark根目录的bin目录下spark-submit脚本用于在集群上启动应用程序，它通过统一接口使用Spark所支持的所有集群管理器，因此无需特殊配置每一个

#spark #集群

理工学---算法模型---聚类分析之DBSCAN密度聚类算法

来源DBSCAN(Density-Based Spatial Clustering of Applications with Noise，基于密度的抗噪聚类方法)。和K-Means，BIRCH这些一般只适用于凸样本集的聚类相比，DBSCAN既可以适用于凸样本集，也可以适用于非凸样本集。1. 密度聚类原理DBSCAN是一种基于密度的聚类算法，这类密度聚类算法一般假定类别可以通过样本分布的

#算法

理工学---算法模型---传统机器学习---朴素贝叶斯

#数据挖掘

理工学---算法模型---时间序列模型

1、时间序列时间序列是时间间隔不变的情况下收集的不同时间点数据集合，这些集合被分析用来了解长期发展趋势及为了预测未来。时间序列与常见的回归问题的不同点在于:1、时间序列是跟时间有关的;而线性回归模型的假设：观察结果是独立的在这种情况下是不成立的。2、随着上升或者下降的趋势，更多的时间序列出现季节性趋势的形式；常用的时间序列模型有AR模型、MA模型、ARMA模型和ARIMA模型等。2、时间

理工学---算法模型---传统机器学习---树相关---随机森林原理与算法实现

随机森林原理随机森林是建立在决策树基础上集成方法（决策树中，由于噪声等因素及高方差的影响，可能会产生一些错误的分支，在没有修剪树枝的时候更容易如此）。随机森林通过有放回的方式从原始样本中随机抽取部分样本产生新的样本集合，重复这样的操作产生多个样本集合，每个样本集合后续都会产生一棵决策树；在每棵决策树产生的过程中，在每个节点进行分支的时候都随机地抽取部分特征参与决策树的分支，然后递归分支，递归分支的

#算法

共 14 条

请选择