一、问题描述

        关于python自带的库函数random.sample(),用它来进行随机采样有时候真是很方便。平时,我会经常这样使用它:

import random

population = [1, 2, 3, 20, 99]
part = random.sample(population, 2)
print(part)

        上面的用法通常没有任何问题,也不会出现任何的错误。然而当random.sample()中的第二个参数大于列表population的元素个数5时,即

import random

population = [1, 2, 3, 20, 99]
part = random.sample(population, 6)
print(part)

        就会出现以下的错误:

ValueError: Sample larger than population or is negative

        这主要是因为random.sample()这个方法采取的抽样策略是不重复采样(不放回采样,采一个少一个,采一个少一个,如果第二个参数大于列表的元素个数,就会导致后面没法采),所以指定的第二个参数不能超过population列表元素的个数,否则就会报错。

二、解决方案

        由于你希望指定的第二个参数是大于列表的元素个数的,因为这个时候采样的话肯定是重复采样(采了一个放回去)。目测比较好的解决方案是numpy中的choice()方法。具体的使用方式如下:

import numpy as np

population = [1, 2, 3, 20, 99]
part = np.random.choice(population, 6)
print(part)

        此时输出如下:

[ 3 20  1  2  2  1]

三、参考

        1. random.sample()的用法

        2. ValueError: Sample larger than population or is negative

        3. random.sample()和numpy.random.choice()的优缺点

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐