
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
一、逻辑回归简介逻辑回归其实是一个线性分类器,其本质是由线性回归变化而来,是一种广泛使用于分类问题中的广义回归算法。其中线性回归模型如下图(向量形式):模型的求解方法有最小二乘法而逻辑回归则是将线性回归通过Sigmoid函数映射到(0,1)之间如图:Tips:最小二乘法和梯度下降的区别最小二乘法求解系数theta主要数学上的求极值的方法,求偏导然后使偏导为零。梯度下降法,首先目标函数(假设只有th
概要本文利用tensorflow构建文本分类模型,数据集使用的是IMDB电影评论文本【数据集地址】,模型主要有四层:模型构建导入所需要的库,以及下载数据集。import matplotlib.pyplot as pltimport osimport reimport shutilimport stringimport tensorflow as tffrom tensorflow.keras im
本文内容来源于TensorFlow教程本文主要介绍了三种图片数据的加载和预处理方法:使用高级的Keras预处理工具(如tf.keras.utils.image_dataset_from_directory)和预处理层(如tf.keras.layers.Rescaling)从磁盘的图片目录中加载数据。使用tf.data的框架写你自己的输入通道。在TensorFlow Datasets中从可用的类别加
过拟合的如何产生的?过拟合的解决办法欠拟合如何产生的?欠拟合的解决办法
训练集标签类别不平衡是机器学习模型训练非常常见的一个问题。它是指训练集中标签A和标签B样本数比例差别很大,当要预测小类标签,即使模型的效果特别差,模型预测的准确率也能达到很高的数值。因此,我们需要处理不平衡的数据集,避免这种情况出现。一般情况下,我们需要处理的是极不平衡的问题(比如类别比例在1:100)。在类别不平衡的情况下,关于混淆矩阵评估指标(准确率:accuracy;精确率:precisio
在互联网如此发达的今天,每天都有海量的数据产生。通过对这些的数据进行分析,我们可以挖掘出数据中的很多信息,从而获取商业价值。面对如此海量的数据,一般的统计分析技术是无法胜任的,需要使用专门的大数据分析技术。今天我们介绍目前最为流行的数据处理技术—Apache Spark。Spark是一款支持多语言的,为大规模分布式数据处理而设计的一站式引擎,它整合了各种上层库,比如用于机器学习的MLlib、提供交
Dropout是什么?Dropout是深度神经网络优化训练过程的一个算法。是由“AI教父”Geoff Hinton在其论文《Improving neural networks by preventing co-adaptation of feature detectors》中提出并在论文《Dropout: A Simple Way to Prevent Neural Networks from O
本文介绍的集成学习算法主要的基于决策的集成学习算法:Bagging、Boosting、Stacking。他们的思想都是基于Bootstraping(自助法),是一种有放回的抽样法,是一种非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。根据《机器学习》中的描述,自助法的思路为:给定包含mmm个样本的数据集DDD ,我们对它进行采样产生数据集 D′D'D′:每次随机从DDD中挑选一个样
Dropout是什么?Dropout是深度神经网络优化训练过程的一个算法。是由“AI教父”Geoff Hinton在其论文《Improving neural networks by preventing co-adaptation of feature detectors》中提出并在论文《Dropout: A Simple Way to Prevent Neural Networks from O
一、lightGBM模型介绍1. lightGBM模型简介lightGBM模型是一个梯度提升决策树(GBDT)的实现,其本质原理就是利用基分类器(决策树)训练集成,得到最优的模型。相同的模型还有XGBoost,但因为XGBoost模型在多维度的大数据集下,计算效率较差和可扩展性较低(主要原因是对于每个特征,它们都要扫描所有的数据样本来评估所有可能分枝点的信息增益),lightGBM模型为了解决这个








