
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
数据决定模型的上限,好的数据或数据处理,对模型的影响是非常大的,同样,对于数据的处理,不同的数据,处理情况也不一样,具体情况如下所示:缺省值处理,异常值处理,样本的数量,,特征的数量:特征筛选,特征的类型(连续,整形,类别)。
对于数据异常值处理,我的理解是,这里的异常值不是代表数据出现的异常,而是对于你需要建立的模型来说,处于异常值。比如你需要正太分布的数据,那么一些不符合正太分布,或者离群太远的值,可以更具你的需要去进行删除,这样你的模型效果就会更好
链表的定义一种线性表数据结构。它使用一组任意的存储单元,来存储一组具有相同类型的地址,但是链表一般是内嵌到数据结构中,而数据结构的类型可以是不同的。
对于链表的排序算法,除了希尔排序之外,且堆排序不建议,其他排序方法都是支持的,如下:冒泡排序,选择排序,插入排序,归并排序,快速排序,计数排序,桶排序和基数排序。下面废话不多说。
Tags: 软件最近了解到一个新的工具,叫做Notion。那么Notion 是什么?一句话理解:把丰富的表达能力组装成 Block,供不会编程能力的人,使用 Notion 在画布上编程,以解决自己的问题。听起来是不是很懵?没错我最开始也很懵,我最开始对他的定义就是,一个和typora一样记笔记的软件,至少Notion是可以记笔记的,但是当我下载下来之后,我发现,两者完全是两个极端!!!
详细讲解了dataframe的常用操作,包含创建,增删改查,算数运算,逻辑运算,常用聚合函数以及lamda函数的使用等
本次项目采用了多种模型进行测试,并尝试策略来提升模型的泛化能力,最终取得了99.67%的准确率,并采用pyqt5来制作可视化GUI界面进行呈现。具体代码已经开源。
对于数据异常值处理,我的理解是,这里的异常值不是代表数据出现的异常,而是对于你需要建立的模型来说,处于异常值。比如你需要正太分布的数据,那么一些不符合正太分布,或者离群太远的值,可以更具你的需要去进行删除,这样你的模型效果就会更好
随机森林在大数据运用中非常的常见,它在预测和回归上相比于SVM,多元线性回归,逻辑回归,多项式回归这些,有着比较好的鲁棒性。随机森林是一个用随机方式建立的,包含多个决策树的分类器。其输出的类别是由各个树输出的类别的众数而定。废话不多说,直接上干货。







