logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

CTR 预测理论(四):集成学习之模型融合与随机森林(Random Forest)

集成学习与随机森林(Random Forest)个体与集成集成学习(ensemble learning)的一般结构:先产生一组“个体学习器”(individual learner),再用某种策略将他们结合起来,如下图所示,个体学习器通常由一个现有的学习算法从训练数据产生:只包含同种类型的个体学习器,这样的集成是“同质”的(homogeneous)。同质集成中的个体学习器亦称为...

#集成学习#随机森林
目标检测 - -DeepLearning.ai 学习笔记(4-3)

课程笔记地址:https://mp.csdn.net/postlist课程代码地址:https://github.com/duboya/DeepLearning.ai-pragramming-code/tree/master欢迎大家fork及star!(-^O^-)卷积神经网络 — 目标检测1. 目标定位和特征点检测图片检测问题:分类问题:判断图中...

#目标检测
CTR 预测理论(二):机器学习分类模型评价指标详述

问题建模机器学习解决问题的通用流程:问题建模——特征工程——模型选择——模型融合其中问题建模主要包括:设定评估指标,选择样本,交叉验证解决一个机器学习问题都是从问题建模开始,首先需要收集问题的资料,深入理解问题,然后将问题抽象成机器可预测的问题。在这个过程中要明确业务指标和模型预测目标,根据预测目标选择适当指标用于模型评估。接着从原始数据中选择最相关的样本子集用于模型训练,并对样本子集...

CTR 预测理论(二十一):数据预处理总结

数据预处理作为算法工程师的基本功,其预处理往往需要结合数据、模型、训练目标等多方面要求,现整合目前现有资料,做一个总结,后续再陆续添加。

CTR 预测理论(二十):特征选择总结

特征筛选作为一个老生常谈的问题,但自身一直缺乏一个较为完整的梳理,现结合现有资料,总结于此。

#sklearn
CTR 预测理论(八):Embedding 质量评估方法总结

最近被面试问到如何评估 embedding 质量,之前没怎么思考过这个问题,现收集整理如下:1. 前言虽然目前word embedding的应用已经十分火热,但对其评价问题,即衡量该word embedding是好是坏,并没有非常完美的方案。实际上,评价其质量最好的方式就是以word embedding对于具体任务的实际收益(上线效果)为评价标准。但是若能找到一个合适的方案,可以在上线前对得到..

最大稳定极值区域(MSER-Maximally Stable Extremal Regions)

最大稳定极值区域(MSER-Maximally Stable Extremal Regions)可以用于图像的斑点区域检测。该算法最早是由Matas等人于2002年提出,它是基于分水岭的概念。MSER的基本原理是对一幅灰度图像(灰度值为0~255)取阈值进行二值化处理,阈值从0到255依次递增。阈值的递增类似于分水岭算法中的水面的上升,随着水面的上升,有一些较矮的丘陵会被淹没,如果从天空往下...

排序算法总结(Python版)

经典排序算法总结与实现经典排序算法在面试中占有很大的比重,也是基础,为了未雨绸缪,在寒假里整理并用Python实现了七大经典排序算法,包括冒泡排序,插入排序,选择排序,希尔排序,归并排序,快速排序,堆排序。希望能帮助到有需要的同学。

#排序算法
CTR 预测理论(十五):分类评价指标 AUC 总结(优缺点、计算公式推导)

个人复习总结分类评价指标 ROC,AUC 时候,私以为 AUC 作为 CTR 预估常用离线评估指标,有着丰富的含义和特性,现对其含义、优缺点、用途、计算公式推导等做一个盘点。

【干货】Kaggle 数据挖掘比赛经验分享

简介Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台。笔者从 2013 年开始,陆续参加了多场 Kaggle上面举办的比赛,相继获得了 CrowdFlower 搜索相关性比赛第一名(1326支队伍)和 HomeDepot 商品搜索相关性比赛第三名(2125支队伍),曾在 Kaggle 数据科学家排行榜排名全球第十,国内第一。笔者目前在..

    共 14 条
  • 1
  • 2
  • 请选择