logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

从原始数据到高效模型:基础特征工程的系统指南

特征工程是机器学习的核心环节,它通过数据转换和特征构造提升模型效果。本文系统解析特征工程体系,包括特征构造(组合特征、分箱离散化、时间特征提取)、特征缩放(Min-Max、Z-Score等方法)、特征选择(过滤法、包裹法、嵌入法)及缺失值处理。文章结合房价预测、泰坦尼克号等案例,展示如何通过业务洞察生成有效特征,并介绍scikit-learn实现工具。强调避免数据泄露、控制特征维度、保持可解释性等

文章图片
#机器学习#经验分享
A/B测试全解析:原理、流程与实战案例

A/B测试是一种数据驱动的实验方法,通过随机分组比较不同版本的效果差异,广泛应用于互联网产品优化。文章从原理、流程、统计学基础到实践案例全面解析A/B测试:核心是通过假设检验验证改动有效性,需注意显著性水平、p值等统计指标;完整流程包括目标设定、实验设计、实施测试和数据分析;实践中需避免样本污染等陷阱,可采用多变量测试等进阶方法。典型案例显示专业摄影使Airbnb订单量提升2-3倍。A/B测试将决

文章图片
#经验分享
从“下山”到AI引擎:全面理解梯度下降(下)

本文介绍了梯度下降算法中学习率的选择策略及其在线性回归中的应用。内容涵盖学习率过大或过小的影响、梯度下降的自适应特性、线性回归的理论推导与伪代码实现,并提供了Python示例代码。关键点包括:学习率决定了收敛速度与稳定性;适中的学习率能实现快速收敛;梯度下降天然具备自适应步长能力;线性回归的均方误差成本函数保证了全局最优解。文章还通过可视化展示了梯度下降的优化过程,并比较了批量梯度下降的优缺点。这

文章图片
#机器学习#数据分析
从“下山”到AI引擎:全面理解梯度下降(上)

本文系统介绍了梯度下降这一机器学习核心优化算法。从几何直觉的“下山”比喻切入,解释了梯度下降通过负梯度方向寻找最优参数的工作原理。文章详细阐述了参数更新规则、学习率的重要性和同步更新原则,并通过Python代码示例演示了线性回归中的梯度下降实现。最后总结了梯度下降的通用性及其在深度学习中的应用,指出尽管存在局部最小值等挑战,梯度下降仍是现代AI模型训练的基础算法。全文以直观比喻和数学公式相结合的方

文章图片
#人工智能#机器学习
读《精益数据分析》:长漏斗分析(Long Funnel)

传统转化漏斗假设用户行为线性且忽略跨渠道影响,而长漏斗分析更贴合现实,追踪用户多触点、长周期的复杂决策路径。其四大核心组件包括多触点归因、扩展时间窗口、跨设备追踪和行为序列建模。实施步骤涵盖定义转化事件、数据整合、可视化、归因模型选择及洞察应用。长漏斗适用于内容营销评估、广告优化和客户生命周期管理,能识别隐形贡献路径。挑战包括数据孤岛和隐私限制,可通过CDP平台和聚焦关键路径解决。案例显示Airb

文章图片
#数据分析#大数据
kaggle项目:基于 LightGBM 的播客收听时长预测建模实践

本项目通过LightGBM回归模型预测播客收听时长,完整呈现了数据处理与建模流程。针对750,000条训练数据,重点处理了Episode_Length_minutes和Guest_Popularity_percentage字段的缺失值,并修正了广告数量的异常值。特征工程阶段构造了嘉宾热度与时长乘积等组合特征。使用RMSE评估指标,最终模型在验证集上表现良好。特征重要性分析显示节目类型和时长是关键影

文章图片
#机器学习
读《精益数据分析》:SaaS 产品的指标体系

本文拆解了《精益数据分析》中的 SaaS 产品增长指标体系,结合真实案例与个人实践,梳理出从注册到留存、从试用到规模化增长的“四阶段通关模型”。适合初学者理解 SaaS 关键指标如注册转化率、CAC 回收周期、NRR 等的实际含义及使用方法。文章采用故事化方式呈现,降低理解门槛,是入门 SaaS 数据分析的实用参考。

文章图片
#数据分析#经验分享
读《精益数据分析》:一次在线教育行业私域转化指标体系实践

本文基于我在某成人在线教育企业的真实经历,梳理了微信公众号引流至企业微信再到长期用户运营的完整流程,重点拆解了转化路径中各关键节点的运营策略与数据指标体系设计。我们通过构建清晰的转化漏斗,定义核心指标如“加微率”“转化率”“响应时效”,并结合实际运营建议,实现了对私域流程的数字化管理和优化。

文章图片
#数据分析#经验分享
读《精益数据分析》:移情(Empathy)—— 验证真实需求,避免伪需求陷阱

精益数据分析的第一阶段“移情”(Empathy)聚焦于验证用户真实需求,避免陷入伪需求陷阱。核心目标是通过深度用户访谈、问卷调查和最小可行化产品(MVP)测试,确认痛点的普遍性与强度。关键活动包括开放式问题访谈、行为细节挖掘和轻量化MVP验证,并通过问题验证率、痛点评分表等指标量化需求价值。案例显示,Airbnb通过“专人拍照”MVP验证房源展示痛点,Cloud9 IDE利用评分表锁定高价值用户,

文章图片
#数据分析#大数据#经验分享
读《精益数据分析》:双边市场的核心指标分析

本文基于《精益数据分析》框架,拆解双边市场四类核心指标:供需平衡、流动性、交易效率、生态健康,结合Airbnb、美团等案例,解析指标应用逻辑与实战策略,揭示动态平衡对平台成败的关键意义。

文章图片
#数据分析#经验分享
    共 11 条
  • 1
  • 2
  • 请选择