
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
一、按学习方式划分1. 监督学习监督学习是指从给定的训练数据集中学习出一个函数(模型参数),当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求包括输入输出,即特征和标签。数据集中每个样本都有相应的 “正确答案(标签)”,根据这些样本做出预测。所有的分类和回归算法都属于监督学习。回归和分类算法的区别在于输出变量的类型:定量输出称为回归(连续型、数值型变量预测)、定性输出称为分类(离散变
学习链接:https://work.datafountain.cn/forum?id=79&type=2&source=1相关知识点:数据预处理特征工程特征工程基本流程python 相关库函数(pandas, numpy 等)在机器学习领域,有这样一句话:“数据和特征决定了机器学习算法的上限,而模型和算法只是不断逼近这个上限而...
一、问题描述输入年、月、日,在屏幕上输出此日期是该年的第几天二、分析第一步:先判断是否是闰年(平年365天,闰年366天)第二步:然后才计算三、代码1. C语言实现#include<stdio.h>#include<stdlib.h>int leap(int yy);int number(int yy, int mm, int dd)...
一、什么是最小二乘法?最小二乘法是回归问题中的一种数学优化工具,它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便的求得位置的数据,使得求得的数据与真值之间误差的平方和最小。(参考:最小二乘法)最小二乘,广义来说就是机器学习中的平方损失函数:...
一、问题下面整理了 2015-2019 年亚洲球队的排名,如下表所示。其中 2019 年国际排名和 2015 年亚洲杯排名均为实际排名。2018 年世界杯中,很多球队没有进入到决赛圈,只有进入到决赛圈的球队才有实际的排名。如果是亚洲区预选赛 12 强的球队,排名会设置为40;如果没有进入到亚洲区预选赛 12 强,球队排名会设置成 50。数据集:cystanford kmeans实战图片及代码 31
一、区分精确率、召回率和特异性、敏感性在数据科学中,查看精确率和召回率来评估构建的模型是十分常见的。而在医学领域,通常使用特异性和敏感性来评估医学测试。这一点在兆观的论文、以及 xxx院的沟通过程中,也注意到这一点了~这些指标有很大的相似之处,但也有些许区别,所以关键在于:不同的领域有不同的评价指标,在给出结果的时候,要考虑对方想要看的指标是什么?或者说,在对方的领域内,权威公认的测试指标是什么?
一、背景问题源于工作中的一项分类任务,正负样本比例严重失衡,想使用 lgb 实现二分类算法。二、读取样本集(.mat格式的数据)import scipy.io as scioimport pandas as pddata_dict = scio.loadmat('样本集.mat')# scio.loadmat()读出来的数据是dict格式data_narray = data_dict['data'
一、算法概念KNN, K-near neighbor,即最近邻算法。它是一种分类算法,算法思想是:一个样本与数据集中的 k 个样本最相似,如果这 k 个样本中的大多数属于某一个类别,则该样本也属于这个类别,即每个样本都可以用它最接近的 k 个邻居来代表。KNN 算法的关键点有两个:k 值的选择和点距离(通常使用欧氏距离)的计算。KNN是一种非参的、惰性的算法模型。二、基本流程第一步:计算已知类别数
一、背景问题源于工作中的一项分类任务,正负样本比例严重失衡,想使用 lgb 实现二分类算法。二、读取样本集(.mat格式的数据)import scipy.io as scioimport pandas as pddata_dict = scio.loadmat('样本集.mat')# scio.loadmat()读出来的数据是dict格式data_narray = data_dict['data'







