dby_freedom 个人主页

@Dby_freedom

dby_freedom

2024-01-21 14:07:48 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

CTR 预测理论（四）：集成学习之模型融合与随机森林(Random Forest)

集成学习与随机森林(Random Forest)个体与集成集成学习（ensemble learning）的一般结构：先产生一组“个体学习器”（individual learner），再用某种策略将他们结合起来，如下图所示，个体学习器通常由一个现有的学习算法从训练数据产生：只包含同种类型的个体学习器，这样的集成是“同质”的（homogeneous）。同质集成中的个体学习器亦称为...

#集成学习 #随机森林

目标检测 - -DeepLearning.ai 学习笔记（4-3）

课程笔记地址：https://mp.csdn.net/postlist课程代码地址：https://github.com/duboya/DeepLearning.ai-pragramming-code/tree/master欢迎大家fork及star！(-^O^-)卷积神经网络 — 目标检测1. 目标定位和特征点检测图片检测问题：分类问题：判断图中...

#目标检测

CTR 预测理论（二）：机器学习分类模型评价指标详述

问题建模机器学习解决问题的通用流程：问题建模——特征工程——模型选择——模型融合其中问题建模主要包括：设定评估指标，选择样本，交叉验证解决一个机器学习问题都是从问题建模开始，首先需要收集问题的资料，深入理解问题，然后将问题抽象成机器可预测的问题。在这个过程中要明确业务指标和模型预测目标，根据预测目标选择适当指标用于模型评估。接着从原始数据中选择最相关的样本子集用于模型训练，并对样本子集...

CTR 预测理论（二十一）：数据预处理总结

数据预处理作为算法工程师的基本功，其预处理往往需要结合数据、模型、训练目标等多方面要求，现整合目前现有资料，做一个总结，后续再陆续添加。

CTR 预测理论（二十）：特征选择总结

特征筛选作为一个老生常谈的问题，但自身一直缺乏一个较为完整的梳理，现结合现有资料，总结于此。

#sklearn

CTR 预测理论（八）：Embedding 质量评估方法总结

最近被面试问到如何评估 embedding 质量，之前没怎么思考过这个问题，现收集整理如下：1. 前言虽然目前word embedding的应用已经十分火热，但对其评价问题，即衡量该word embedding是好是坏，并没有非常完美的方案。实际上，评价其质量最好的方式就是以word embedding对于具体任务的实际收益（上线效果）为评价标准。但是若能找到一个合适的方案，可以在上线前对得到..

最大稳定极值区域（MSER-Maximally Stable Extremal Regions）

最大稳定极值区域（MSER-Maximally Stable Extremal Regions）可以用于图像的斑点区域检测。该算法最早是由Matas等人于2002年提出，它是基于分水岭的概念。MSER的基本原理是对一幅灰度图像（灰度值为0～255）取阈值进行二值化处理，阈值从0到255依次递增。阈值的递增类似于分水岭算法中的水面的上升，随着水面的上升，有一些较矮的丘陵会被淹没，如果从天空往下...

排序算法总结（Python版）

经典排序算法总结与实现经典排序算法在面试中占有很大的比重，也是基础，为了未雨绸缪，在寒假里整理并用Python实现了七大经典排序算法，包括冒泡排序，插入排序，选择排序，希尔排序，归并排序，快速排序，堆排序。希望能帮助到有需要的同学。

#排序算法

CTR 预测理论（十五）：分类评价指标 AUC 总结（优缺点、计算公式推导）

个人复习总结分类评价指标 ROC，AUC 时候，私以为 AUC 作为 CTR 预估常用离线评估指标，有着丰富的含义和特性，现对其含义、优缺点、用途、计算公式推导等做一个盘点。

【干货】Kaggle 数据挖掘比赛经验分享

简介Kaggle 于 2010 年创立，专注数据科学，机器学习竞赛的举办，是全球最大的数据科学社区和数据竞赛平台。笔者从 2013 年开始，陆续参加了多场 Kaggle上面举办的比赛，相继获得了 CrowdFlower 搜索相关性比赛第一名（1326支队伍）和 HomeDepot 商品搜索相关性比赛第三名（2125支队伍），曾在 Kaggle 数据科学家排行榜排名全球第十，国内第一。笔者目前在..

共 14 条

请选择