如何使用 Python 只保留 Pandas 数据框中的连续值

Mangs

37人浏览 · 2022-08-20 22:15:05

Mangs · 2022-08-20 22:15:05 发布

回答问题

我有一个看起来像这样的数据框:

在此处输入图像描述

我想只保留每个组中的连续年份,例如下图,其中 A 组中的 2005 年和 B 组中的 2009 年和 2011 年被删除。

在此处输入图像描述

我使用df['year_diff']=df.groupby(['group'])['Year'].diff()创建了一个年差列,然后只保留年差等于1的行。

但是,此方法也会删除每个连续年份组中的第一行,因为第一行的年份差将为 NAN。例如,2000 年将从组 2000-2005 中删除。有没有办法可以避免这个问题?

Answers

`shift`

像 OP 一样获取年份差异。然后检查是否等于1或者之前的值是1

yd = df.Year.groupby(df.group).diff().eq(1)
df[yd | yd.shift(-1)]

   group  Year
0      A  2000
1      A  2001
2      A  2002
3      A  2003
5      A  2007
6      A  2008
7      A  2009
8      A  2010
9      A  2011
10     B  2005
11     B  2006
12     B  2007
15     B  2013
16     B  2014
17     B  2015
18     B  2016
19     B  2017

设置

谢谢你

a = [('A',x) for x in range(2000, 2012) if x not in [2004,2006]]
b = [('B',x) for x in range(2005, 2018) if x not in [2008,2010,2012]]
df = pd.DataFrame(a + b, columns=['group','Year'])

Python

Python社区为您提供最前沿的新闻资讯和知识内容

更多推荐

求助！为什么用InsCode部署会出现无限重定向？

Python

如何重塑熊猫。系列

问题:如何重塑熊猫。系列在我看来,它就像 pandas.Series 中的一个错误。 a = pd.Series([1,2,3,4]) b = a.reshape(2,2) b b 有类型 Series 但无法显示,最后一条语句给出异常,非常冗长,最后一行是“TypeError: %d format: a number is required, not numpy.ndarray”。 b.sha

Python

在哪里可以找到有关 Keras 中默认权重初始化器的文档? [复制]

问题:在哪里可以找到有关 Keras 中默认权重初始化器的文档? [复制] 我刚刚在这里](https://keras.io/initializers/)中阅读了有关[中的 Keras 权重初始化器的信息。在文档中,只介绍了不同的初始化程序。如: model.add(Dense(64, kernel_initializer='random_normal')) 当我没有指定kernel_initia