数据分析师知识体系业务篇

目录机器学习监督学习三要素模型评估与选择模型介绍感知机k近邻朴素贝叶斯法机器学习监督学习三要素模型：凭借某种思想得到的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。策略：按照什么样的准则（损失函数）选择最优模型。回归问题mse，分类问题负对数似然损失，交叉熵损失等。详情见此算法：解析解不存在时采用的数值计算的方法。模型评估与选择经验误差/训练误差：模型在训练集上的误差

andylklk

1149人浏览 · 2020-08-28 08:58:56

andylklk · 2020-08-28 08:58:56 发布

分析框架

事件分析

通过埋点，高效追踪用户行为或业务的过程。注册，启动，登录，点击等，都是常见的事件。

通过事件分析我们可以准确了解app内发生的事件量，根据产品特性合理配置追踪，可以轻松回答关于变化趋势，分维度对比等问题，例如：
(1)某个时间段推广页面点击量有多少，对比昨日有多少提升？
(2)某个渠道的累积注册数是多少，第一季度排名前十的注册渠道有哪些？
(3)某个活动页面的uv （unique vistor）分时走势，安卓和ios占比情况如何？

漏斗分析

漏斗模型：分析一个多步骤过程中，每一步的转化与流失情况。以互联网金融-理财端为例，新用户在首次投资会经过如下步骤过程：(1)浏览页面(2)实名认证(3)充值成功(4)投资成功

我们可以通过漏斗分析整体的转化情况，以及每一步转化量，流失量，转化/流失率。

在漏斗模型中清晰3个基本概念，可以借助强大的筛选和分组功能进行深度分析:

(1)步骤：指的用户行为，由事件加筛选条件组成
(2)时间范围：漏斗第一步骤发生的时间范围
(3)窗口期：用户完成漏斗的时间限制，漏斗只统计这个时间范围内，用户从第一步到最后一步的转化。

自我理解：事件分析发现问题（如注册量降低），漏斗分析将问题定位的更精准（如注册量降低是因为点击率降低）。

AARRR模型

AARRR模型是一套适用于移动app的分析框架，又称海盗指标，是‘增长黑客’中驱动用户增长的核心模型。AARRR模型把用户行为指标分为了5大类，分别为：获取用户，激发活跃，提高留存，增加收入和病毒传播。

从用户获取到病毒传播，每个环节都有重要的指标需要我们去关注，通过AARRR模型系统化的拆解5大类目用户行为，可以让我们更清晰的知道每个环节需要重点关注的重点指标。

以电商业务为例，下图基于AARRR模型，构建用户生命周期运营全脉络和每个节点需要关注的重点指标。

获取用户

在获取用户阶段，我们希望让更多潜在用户关注到我们的产品，通过以下基础途径来曝光我们的推广页面：
(1)付费获取：媒体广告，短信，电子邮件，流量交易/置换
(2)搜索营销：搜索引擎优化(SEO)，搜索引擎营销(SEM)定义详情见此
(3)口碑传播：用户间邀请活动，病毒H5传播等

用户访问页面后，可以通过导航，主动搜索，算法推荐来了解我们的产品。切中当下需求的用户会进行注册行为，算是和用户真正意义上第一次会面。

这里就要重点关注推广页UV（unique vistor），点击率，注册量，注册率，获客成本等重要指标。

激发活跃

用户注册后是否有进一步了解我们的产品？这其中涉及到产品的功能，设计，文案，激励，可信等等。我们需要不断调优，引导用户进行下一步行为，让新用户成为长期的活跃用户。

我们可以通过界面/文案优化，新手引导，优惠激励等手段，进行用户激活流程的转化提升。如电商场景中，监控浏览商品页面，加入购物车，提交订单，完成订单的漏斗转化。

这个过程中，我们要重点关注活跃度，若定义加入购物车为活跃用户，那么我们就要观察注册至加入购物车漏斗转化率，按维度拆分，分析优质转化漏斗的共有特征/运营策略，提升策略覆盖率，优化整体转化效果。

提高留存

用户完成初次购买流程后，是否会继续使用？流失的用户能否继续回来时用我们的产品?

产品缺乏粘性会导致用户的快速流失，我们可以通过搭建生命周期节点营销计划，通过push，短信，订阅号，邮件，客服跟进等一切适合的方式去提醒用户持续使用我们的产品。

并且在此基础上通过积分/等级体系，培养用户忠诚度，提升用户粘性。

重点关注留存率，复购率，人均购买次数，召回率等指标。

增加收入

我们获得每位用户平均需要花费多少钱？每位用户平均能为我们贡献多少价值。能是否从用户的行为，甚至其他方式赚到钱？

电商业务的基础要关注获客成本CAC，顾客终身价值，在此基础上通过运营活动激励用户进行购买，提升用户单价，频次，频率，最终提升用户生命周期贡献价值。

重点关注获客成本，顾客终身价值，营销活动ROI等指标。

病毒传播

用户是否会自发的推广我们的产品？通过激励是否能让更多的忠诚用户推广我们的产品？

在社交网络高度发达的今天，我们可以通过各种新奇的方式去进行产品传播：用户邀请的老带新活动，垂直领域的社群运营 (社群运营是指将群体成员需以一定纽带联系起来，使成员之间有共同目标和持续的相互交往，群体成员有共同的群体意识和规范 )，H5营销传播（H5营销是指利用H5技术（主要是HTML5技术），在页面上融入文字动效、音频、视频、图片、图表、音乐、互动调查等各种媒体表现方式，将品牌核心观点重点突出，使页面形式更加适合阅读、展示、互动）。

重点关注邀请发起人数，每个病毒传播周期的新用户量，邀请转化率，传播系数等。

三大增长引擎

精益创业提出一个概念：唯一关键指标（OMTM）。在任何类型产品的任何一个阶段，都需要找到唯一的一个数字，把它放到比其他任何事情都重要的位置上。在数据分析时，可以抓取许许多多的数据，但必须聚焦在最关键的事情上。同时其也是‘增长黑客’中的关键特质：专注目标。

1.粘着式增长引擎

粘着式增长引擎以留存作为OMTM驱动增长。

典型案例是游戏类的APP，facebook针对游戏提出的‘40-20-10’法则，即如果你想让游戏的DAU（日活跃用户数量）超过100万，那么新用户的次日留存率应该大于40%，7日留存率大于20%，30日留存率大于10%。

例如游戏中常见的：签到活动，登陆奖励，时长奖励等玩法都是基于提升用户留存的目的，通过提供目的性的目标，制定规则和反馈系统，为玩家带来创造性成就和能力的提高带来的满足感和愉快感，从而提升用户的游戏频率，游戏时长，最终提升用户留存。

好的留存率对于不同的产品而言是不同的，针对不同类型的产品与用户粘性寻找最适合的留存指标才是正确的。

2. 付费式增长引擎

付费式增长引擎以营收作为OMTM驱动增长。简单来说，从顾客在产品上贡献的价值大于获取付费用户的成本就可以一直驱动营收增长。

互联网金融是付费式增长引擎的典型例子，由于产品类型不像游戏和视频咨询类应用，有强大高频使用需求。互金运营考核的核心目标就是促成交易，从用户每一次投资/借贷行为中获得收入，覆盖营销的收入，不断驱动引擎的转动。这里我们要重点关注2个指标：客户获取成本；客户终身价值。

当CLV > CAC,不计其它成本的基础上，已驱动引擎正常运转了，接下来就要思考如何提供更多曝光，扩大顶端的漏斗，以及尽可能缩短客户盈亏平衡时间。

3.爆发式增长引擎

爆发式增长引擎以传播作为OMTM驱动增长。

典型案例：基于社交场景的分享，通过瓜分红包，砍价，拼团，秒杀等玩法，不断触达潜在用户。用户分享到社交网络，即可降低付出的成本，通过为用户省钱的策略，提升用户感知价值，不断刺激价格敏感用户，贡献大量的分享量，点击里昂，引导潜在用户进行体验/注册。

在爆发式增长引擎中，我们需要关注病毒系数 K = I*Conv:

I: Invitation,即每个用户发送的邀请数量，反映了分布密度。
Conv：Conversion rate，即每个邀请成功的概率，反映了感染强度。

那么如何提升K，上面活动中常见的3种方案：

（1）重点提高接受率：降低接受门槛，且尽量将接受步骤控制在社交场景中，避免二跳降低转化。
（2）缩短单次邀请流程的生命周期：通过限定时间的方法，加快增长进程的同时，提升紧迫感。
（3）试图说服用户去邀请更多的人：头几位受邀用户在砍价中可以砍掉很多金额，让用户初尝甜头后激励更多的转发量。

指标异常分析

问题定位

这一步是横向拆解问题。拆解方式有很多。用户角度按用户渠道来源，用户访问时段，用户所在地区，用户类型等进行拆分，商品角度按商品类型，商品价位，商品供货地区等角度进行拆分。通过以上拆分，得到是哪个渠道/地区/访问时段/商品类型…指标出现问题，亦或是全局出现问题。

指标拆解

这一步是纵向拆解问题。常见指标拆解方法：
1.成交总额(GMV) = 入站流量 * 下单率 * 客单价
入站流量 = 新用户数量+老用户数量*留存率
新用户数量 = 各渠道流量 * 转化率
下单率 = 页面访问量 * 转化率
客单价 = 商品数量 * 商品价格
2.DAU = 新用户数 + 老用户 * 留存率

理解：
(1)横向/纵向拆解没有固定的先后顺序，只要保证不重复拆解就行。比如指标拆解中的+号，都可以用于横向拆解。
(2)有些指标没必要横向纵向都拆解，比如次日留存率。
(3)有时候可以利用漏斗分析的思维拆解指标，比如拆解下单转化率，可以想象用户从登录页面到最后下单的全过程。下单转化率 = 页面访问率 * 加入购物车率 * 最后下单率。

原因分析

内部的话，从产品，运营，技术，其他四个角度思考。
产品角度：功能/版本迭代，引起用户不满/用户操作不方便。
运营角度：广告投放问题，渠道质量下滑；拉新活动，促活跃活动，促留存活动，促传播活动不到位；之前举办了大活动，最近不举办大活动。
技术角度：某个页面存在bug，支付链接卡顿。
其他角度：数据异常。

外部的话，从政治，经济，社会，技术四个角度思考。
政治角度：国家出台互联网相关政策，带来的影响。
经济角度：长期看国民收入水平，短期看竞品活动。
社会角度：舆论/社会热点带来的价值观，消费观，生活方式的变化。
技术角度：创新技术出现，分销渠道变化等。

A/B Test

是什么？

A/B test 是一种用来测试新产品或新功能的在线测试常规方法。一般分为两组用户，一组对照组，一组实验组。对照组采用已有的产品或功能，实验组采用新功能。要做的是找到他们的不同反应，并以此确定哪个版本更好。

为什么？

A / B test可以让个人，团队和公司通过用户行为结果数据不断对其用户体验进行仔细更改。这允许他们构建假设，并更好地了解为什么修改的某些元素会影响用户行为。这些假设可能被证明是错误的，当然也可能证明是正确的。

所以说 A/B test不仅仅是解决一次分歧的对比，A/B test可以持续使用，以不断改善用户的体验，改善某一目标，如随着时间推移的转换率。

怎么做？

确定目标：目标是用于确定变体是否比原始版本更成功的指标。可以是点击按钮的点击率，链接到产品购买的打开率，电子邮件注册的注册率等。
创建变体：对网站原有版本的元素进行更改。可能是更改按钮颜色，交换页面元素顺序，隐藏导航元素或完全自定义的内容。
生成假设：一旦确定目标，就可以开始生成A/B test的想法和假设，以便统计分析它们是否会优于当前版本。
收集数据：针对指定区域的假设收集相应数据用于A/B test分析。
运行试验：此时，网站或应用的访问者将被随机分配控件或变体。测量，计算和比较他们与每种体验的相互作用，以确定每个用户体验的表现。
分析结果：实验完成后，就可以分析结果了。A/B test将显示两个版本之间是否存在统计性显著差异。

其他问题

费米问题

如何估算今年新生儿出生数量？
估算北京一日卖出的油条数量？
估算上海的外卖小哥数量？

思路：从供需两个角度出发，对指标进行拆分，找到更容易估计的指标。

今年新生儿数量 = $\sum$ 各年龄层育龄女性数量 * 各年龄层生育比率。（供应角度）
北京一日卖出油条数量 = 北京人口数量 * 转化率。（需求角度）
北京一日卖出的油条数量 = 油条店数量 * 一家店一天卖出的油条数量。（供应角度）
上海外卖员数量 = 上海人口数量 * 点外卖转化率/ 一个外卖员每天平均送单。（需求角度）
上海外卖员数量 = 上海人口数量 * 送外卖转化率。（供应角度）

以上提供最简单的拆分思路，为了使结果更加精确，会将北京/上海人口进行拆分（婴儿，学生，上班族，老人），油条店进行拆分（地理位置，规模大小）。

提高指标方法论

卖玉米如何提高收益？
如何提高GMV?
如何提高用户活跃人数？

思路：本质也是指标拆解。并对每个指标的增长提出意见。

收益 = 流量 * 转化率 * 单价

提高单价：品牌打造获得长期溢价，缺陷是需要大量的前期营销收入；加工商品占据价值链更多环节，如熟玉米，玉米汁，玉米蛋白粉；重定位商品，如礼品化；价格歧视，根据价格敏感度对不同用户采用不同定价。

提高流量：多渠道投放广告；选择人流量较大的位置；分享到朋友圈享优惠；商品多样化，增加客户回头率等。

转化率：商品多样化，供用户挑选；文案激励，吃玉米的好处；店面设计时尚；店面充满玉米香。

用户活跃人数 = 新用户人数 * 活跃率 + 老用户人数 * 活跃率。

提高新用户人数：多渠道投放广告；搜索引擎优化/营销；促进用户传播等。
提高新用户活跃率：优化用户推荐系统，优化新手指引；优化界面设计等。
提高老用户活跃率：push将流失/已流失用户；培养用户忠诚度；文案激励；活动促销等。

指标变化预警

APP激活量的来源渠道很多，怎样对来源渠道的大变化进行预警？

如果渠道存在时间长(>30天),可以认为渠道的app激活量满足某分布，如正态分布。对异常值进行预警。
如果渠道存在时间短(<30天),可以认为渠道的app激活量满足某分布，如t分布。对异常值进行预警。

辛普森悖论

男生点击率增加，女生点击率增加，总体为何减小？

因为男女点击率差异较大，同时低点击率群体占比增大。

如原来男的20人，1人点击；女的100人，99人点击。总体5/6.
现在男的100人，6人点击；女的20人，20人点击，总体13/60。

识别作弊用户

渠道特征：渠道次日留存率，渠道流量及各种比率特征是否异常。

环境特征：设备（一般伪造假用户的工作坊以低端机为主），系统（刷量工作坊一般系统更新较慢），wifi使用情况，使用时间，来源地区，ip是否进过黑名单。

用户行为特征：访问时长，访问页面，使用间隔，次日留存，活跃时间，页面跳转行为（假用户的行为要么过于一致，要么过于随机），页面使用行为（正常用户对图片的点击也是有分布的，假用户的行为容易过于随机）。

异常特征：设备号异常（频繁重置idfa），ip异常（异地访问），行为异常（突然大量点击广告，点赞），数据包不完整。

同比/环比

同比：历史同期数据（一般指月份或者季度），好处是可以排除一部分季节因素，反映了产品的一个长期竞争力的表现。

环比：上一个统计周期数据，好处是可以更直观的表明阶段性的变化，但是会受季节因素影响，反映了产品的短期趋势。

根据统计周期、频率不同会有具体变化。最熟悉的就是CPI（通胀数据），这个是月统计数据，年为主要周期，所以简单来说，同比就是本月与去年同月的比，环比就是本月与上月的比。一般这两个数据要结合公司的市场推广情况、产品的竞争力进行综合分析，剖析数据变化的内在原因，帮助市场部门更好的制定营销策略。

例1：环比增加了30%，同比只增加了5%，说明公司近期的推销手段可能起作用了，但整体来说，产品的市场认可度并没有大的提升，可能之前的价格没有竞争力或者性价比不高，或产品定位不准，这一切都需要具体情况分析。

例2：环比减少了10%，但同比增加了300%，说明产品近一年的销售情况是不错的，市场认可度一直在提升，但近期可能出现了问题，或者其他新产品影响了他的销售，或者缺少市场推广活动等等。

RFM模型

RFM模型在客户管理中常被用来衡量客户的价值和创新能力，主要考量三个指标：

最近一次消费（R），消费频率(F)，消费金额(M)。根据以上三个维度对客户进行细分：假定每个维度划分5个等级，得到R值（1-5），F值（1-5），M值（1-5）。客户可以被细分为125个群体。可以根据客户的交易行为针对不同群体做不同推荐。还可以根据不同业务场景，对R,F,M赋予不同权重WR,WF,WF。可以得到每个用户的得分W = WRR+WFF+WM*M。根据得分排序，再划分等级，采用不同营销策略。

其他

1.用户刚进app的时候会选择属性，怎么在保证有完整用户信息的同时让用户流失减少？

采用技术接受模型来分析，影响用户接受选择属性这件事的主要因素有：

感知有用性：文案告知用户选择属性能给用户带来的好处。

感知易用性：关联用户第三方账号，可以冷启动阶段匹配用户更有可能选择的属性，推荐用户选择；做好交互性。

使用者态度：用户对填写信息的态度。这里需要允许用户跳过，后续再提醒用户填写；告知用户填写的信息会受到很好的保护。

2.要不要新增一个模块？
要不要把一个模块的位置换到另一个模块？

首先，从业务角度出发。问自己两个问题。如何量化用户对该模块的需求？如何量化该模块的效果？如果认为用户对该模块的需求不小，则对量化模块效果的指标进行A/B test。

回答问题1：
如知乎上添加一个鼓励按钮，可以通过抽样调查，或者自然语言处理，分析平均有几个用户有表达鼓励的需求。

如猿辅导想要把优惠券模块从隐蔽的地方放到首页。因为已经有数据了，可以去看该模块的使用率，与同在隐蔽位置的其他模块比较，是否显著不同。

回答问题2：
一般会告诉你想要达到什么效果。自己分析的话较多采用AARRR模型分析思路。

3.怎么去搭建新的指标？

首先，指标的搭建需要满足几个条件
(1)简单易理解
(2)最好是比例
(3)要有核心指标
(4)杜绝虚荣指标

好的指标一定是在理解业务的基础上搭建的。核心指标一定是宏观上的基于业务的指标，普通指标可以从AARRR模型中找到思路。

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

用 OpenAI Assistants 做大模型应用开发

CSDN学习社区

1 小时解读鸿蒙 10 大热点问题

CSDN学习社区

1 小时解读鸿蒙 10 大热点问题

CSDN学习社区

所有评论(0)

查看更多评论

andylklk

@andylklk

已为社区贡献1条内容

数据分析师知识体系业务篇

andylklk

目录

分析框架

事件分析

漏斗分析

AARRR模型

获取用户

激发活跃

提高留存

增加收入

病毒传播

三大增长引擎

1.粘着式增长引擎

2. 付费式增长引擎

3.爆发式增长引擎

指标异常分析

问题定位

指标拆解

原因分析

A/B Test

是什么？

为什么？

怎么做？

相关问题

采样如何无偏？

确定最小样本量

不同指标检验

其他问题

费米问题

提高指标方法论

指标变化预警

辛普森悖论

识别作弊用户

同比/环比

RFM模型

其他

所有评论(0)

andylklk

数据分析师 知识体系 业务篇

andylklk

目录

分析框架

事件分析

漏斗分析

AARRR模型

获取用户

激发活跃

提高留存

增加收入

病毒传播

三大增长引擎

1.粘着式增长引擎

2. 付费式增长引擎

3.爆发式增长引擎

指标异常分析

问题定位

指标拆解

原因分析

A/B Test

是什么？

为什么？

怎么做？

相关问题

采样如何无偏？

确定最小样本量

不同指标检验

其他问题

费米问题

提高指标方法论

指标变化预警

辛普森悖论

识别作弊用户

同比/环比

RFM模型

其他

所有评论(0)

andylklk

数据分析师知识体系业务篇