
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
集成学习与随机森林(Random Forest)个体与集成集成学习(ensemble learning)的一般结构:先产生一组“个体学习器”(individual learner),再用某种策略将他们结合起来,如下图所示,个体学习器通常由一个现有的学习算法从训练数据产生:只包含同种类型的个体学习器,这样的集成是“同质”的(homogeneous)。同质集成中的个体学习器亦称为...
课程笔记地址:https://mp.csdn.net/postlist课程代码地址:https://github.com/duboya/DeepLearning.ai-pragramming-code/tree/master欢迎大家fork及star!(-^O^-)卷积神经网络 — 目标检测1. 目标定位和特征点检测图片检测问题:分类问题:判断图中...
问题建模机器学习解决问题的通用流程:问题建模——特征工程——模型选择——模型融合其中问题建模主要包括:设定评估指标,选择样本,交叉验证解决一个机器学习问题都是从问题建模开始,首先需要收集问题的资料,深入理解问题,然后将问题抽象成机器可预测的问题。在这个过程中要明确业务指标和模型预测目标,根据预测目标选择适当指标用于模型评估。接着从原始数据中选择最相关的样本子集用于模型训练,并对样本子集...
数据预处理作为算法工程师的基本功,其预处理往往需要结合数据、模型、训练目标等多方面要求,现整合目前现有资料,做一个总结,后续再陆续添加。
特征筛选作为一个老生常谈的问题,但自身一直缺乏一个较为完整的梳理,现结合现有资料,总结于此。
最近被面试问到如何评估 embedding 质量,之前没怎么思考过这个问题,现收集整理如下:1. 前言虽然目前word embedding的应用已经十分火热,但对其评价问题,即衡量该word embedding是好是坏,并没有非常完美的方案。实际上,评价其质量最好的方式就是以word embedding对于具体任务的实际收益(上线效果)为评价标准。但是若能找到一个合适的方案,可以在上线前对得到..
最大稳定极值区域(MSER-Maximally Stable Extremal Regions)可以用于图像的斑点区域检测。该算法最早是由Matas等人于2002年提出,它是基于分水岭的概念。MSER的基本原理是对一幅灰度图像(灰度值为0~255)取阈值进行二值化处理,阈值从0到255依次递增。阈值的递增类似于分水岭算法中的水面的上升,随着水面的上升,有一些较矮的丘陵会被淹没,如果从天空往下...
经典排序算法总结与实现经典排序算法在面试中占有很大的比重,也是基础,为了未雨绸缪,在寒假里整理并用Python实现了七大经典排序算法,包括冒泡排序,插入排序,选择排序,希尔排序,归并排序,快速排序,堆排序。希望能帮助到有需要的同学。
个人复习总结分类评价指标 ROC,AUC 时候,私以为 AUC 作为 CTR 预估常用离线评估指标,有着丰富的含义和特性,现对其含义、优缺点、用途、计算公式推导等做一个盘点。
简介Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台。笔者从 2013 年开始,陆续参加了多场 Kaggle上面举办的比赛,相继获得了 CrowdFlower 搜索相关性比赛第一名(1326支队伍)和 HomeDepot 商品搜索相关性比赛第三名(2125支队伍),曾在 Kaggle 数据科学家排行榜排名全球第十,国内第一。笔者目前在..







