抽样步骤

  1. 定义目标群体:明确调查的全部对象及其范围。
  2. 定义抽样框:抽样框又称“抽样框架”、“抽样结构”,是指对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。
  3. 选择抽样方法:确定抽样测算所使用的抽样方法。
  4. 确定样本数量:确定抽样测算需要的样本数量,样本数越大精确度越高。
  5. 收集数据:从抽取的样本中收取测算数据。
  • 已美国大选民意调查为例
  1. 仅考虑18岁以上且有资格投票的人。
  2. 抽样框是每一个选区的所有投票人列表。
  3. 选择使用概率抽样方法,因为每一张选票都是等价的,还可以将不同背景的人进行分层,使用分层抽样。
  4. 样本数为选区人口1%
  5. 通过电话访问样本人员,通过提问获取投票意向。

概率抽样

概率抽样是指在调查总体样本中的每个单位都具有同等可能性被抽中的机会。又称随机抽样,概率抽样以概率理论和随机原则为依据来抽取样本的抽样,是使总体中的每一个单位都有一个事先已知的非零概率被抽中的抽样。总体单位被抽中的概率可以通过样本设计来规定,通过某种随机化操作来实现,虽然随机样本一般不会与总体完全一致。

简单随机抽样/单纯随机抽样/纯随机抽样/SRS抽样

概念:简单随机抽样也称为单纯随机抽样、纯随机抽样、SRS抽样 ,是指从总体N个单位中任意抽取n个单位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。

例子:从投票人列表中根据随机数抽取样本。

优点:简单,直接。

缺点:结果不确定性太强,每次结果可能不一样。

蒙特卡罗方法采用重复随机抽样的方法对未知参数进行估计。

分层抽样/类型抽样

概念:分层抽样法也叫类型抽样法。它是从一个可以分成不同子总体(或称为层)的总体中,按规定的比例从不同层中随机抽取样品(个体)的方法。

例子:

优点:样本的代表性比较好,抽样误差比较小。

缺点:抽样手续较简单随机抽样还要繁杂些

定量调查中的分层抽样是一种卓越的概率抽样方式,在调查中经常被使用。

聚类抽样/整群抽样

聚类取样(Cluster Sampling)又称整群抽样。是将总体中各单位归并成若干个互不交叉、互不重复的集合,称之为群;然后以群为抽样单位抽取样本的一种抽样方式。应用整群抽样时,要求各群有较好的代表性,即群内各单位的差异要大,群间差异要小。

在上面的例子中,我们将人口分为5个群。每个群由4个个体组成,我们在样本中选取了第4个群。我们可以根据样本大小包含更多的群。

当我们集中在一个特定领域或区域时,就会使用这种类型的抽样。

系统抽样/等距抽样/机械抽样

先将总体的全部单元按照一定顺序排列,采用简单随机抽样抽取第一个样本单元(或称为随机起点),再顺序抽取其余的样本单元,这类抽样方法被称为等距抽样(Systematic Sampling)。等距抽样又称为机械抽样、系统抽样。等距抽样往往不能给出估计量的估计方差。

在这种类型的抽样中,第一个个体是随机选择的,其他个体是使用固定的“抽样间隔”选择的。让我们举一个简单的例子来理解这一点。

系统抽样比简单随机抽样更方便。然而,如果我们在人群中选择项目时存在一种潜在的模式,这也可能导致偏差(尽管这种情况发生的几率非常低)。

非概率抽样

非概率抽样是指调查者根据自己的方便或主观判断抽取样本的方法。它不是严格按随机抽样原则来抽取样本,所以失去了大数定律的存在基础,也就无法确定抽样误差,无法正确地说明样本的统计值在多大程度上适合于总体。虽然根据样本调查的结果也可在一定程度上说明总体的性质,特征,但不能从数量上推断总体。非概率抽样主要有偶遇抽样,主观抽样,定额抽样,滚雪球抽样等

1.随意抽样/便利抽样

方便抽样又称随意抽样、偶遇抽样,是一种为配合研究主题而由调查者于特定的时间和特定社区的某一位置上,随意选择回答者的非概率抽样方法。这种抽样方法适合于对一些特殊情况的调查,像一些时过境迁的突发性事件或现象(违章驾车、骚乱、聚众闹事等等)。通过在当场抽取样本询问当事者、目击者、旁观者以及过往的行人,可以了解事件发生的经过、原因以及对事件的看法和态度。

这里,假设编号为4、7、12、15和20的个体想要成为样本的一部分,因此,我们将把它们包含在样本中。

便利抽样容易产生显著的偏见,因为抽样可能不能代表诸如宗教或人口的性别等具体特征。

2.判断抽样/立意抽样

立意抽样是指当调查人员对自己的研究领域十分熟悉,对调查总体比较了解时采用这种抽样方法,可获代表性较高的样本。这种抽样方法多应用于总体小而内部差异大的情况,以及在总体边界无法确定或因研究者的时间与人力、物力有限时采用。例如,要对福建省旅游市场状况进行调查,有关部门选择厦门、武夷山、泰宁金湖等旅游风景区做为样本调查,这就是立意抽样。

假设,我们的专家认为,应该将编号为1、7、10、15和19的人作为我们的样本,因为它们可以帮助我们更好地推断人口。你可以想象,配额抽样同样也容易受到专家的偏见,不一定具有代表性。

3.配额抽样/定额抽样

配额抽样也称“定额抽样”,是指调查人员将调查总体样本按一定标志分类或分层,确定各类(层)单位的样本数额,在配额内任意抽选样本的抽样方式。
配额抽样和分层随机抽样既有相似之处,也有很大区别。配额抽样和分层随机抽样有相似的地方,都是事先对总体中所有单位按其属性、特征分类,这些属性、特征我们称之为“控制特性。”例如市场调查中消费者的性别、年龄、收入、职业、文化程度等等。然后,按各个控制特性,分配样本数额。但它与分层抽样又有区别,分层抽样是按随机原则在层内抽选样本,而配额抽样则是由调查人员在配额内主观判断选定样本。

在这种抽样中,我们根据预先确定的总体特征来选择样本。考虑到我们必须为我们的样本我们选择一个倍数为4的个体:

因此,编号为4、8、12、16和20的个人已经为我们的样本保留。

在配额抽样中,选择的样本可能不是未考虑的人口特征的最佳代表。

4.滚雪球抽样

滚雪球抽样是指先随机选择一些被访者并对其实施访问,再请他们提供另外一些属于所研究目标总体的调查对象,根据所形成的线索选择此后的调查对象。滚雪球抽样往往用于对稀少群体的调查。在滚雪球抽样中,首先选择一组调查单位,对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查。

在这里,我们随机选择了1个人作为样本,然后他推荐了6个人,6个人推荐了11个人,依此类推。

雪球抽样有很大的选择偏见风险,因为被引用的个体将与推荐他们的个体具有共同的特征。

 

参考:

  1. https://blog.csdn.net/fendouaini/article/details/102579343
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐