Pandas 是基于 NumPy 的一个 Python 数据分析包,主要目的是为了数据分析。

它提供了大量高级的数据结构和对数据处理的方法

pandas主要支持的数据结构:

1.series:一维数组,以下标为索引访问;

2.Time-Series:时间序列,本质上是一个一维数组,以时间为索引访问;

3.DataFrame:二维表格型数据结构;

4.Panel:三维数组,可以装载多个DataFrame的容器。

Series :

        是一个一维数组对象 ,类似于 NumPy 的一维 array。它除了包含一组数据还包含一组索引,所以可以把它理解为一组带索引的数组。

DataFrame

        类似于Numpy中利用一维数组构造的二维甚至更高维的数组。是加将多个Series构造为二维数据结构的容器,是Pandas组织复合数据的主流方式。

 

 

#(1) 通过pandas的Series构造一维数组s,包含元素分别为:河北省,保定市,22135。
s=Series(["河北省","保定市",22135])
print(s)
print(s.ndim)#s输出s的维度
print(s.shape)#) 输出s的形状。
print(s.values)#输出s的所有值
print("s的索引为:",s.index)#输出s的索引

 

 

 

from pandas import DataFrame
#(通过字典) 构造如下表所示的二维数组df。
df=DataFrame({"Name":["python","Java","C"],"score":[95,85,95],"year":[2018,2017,2016]})
print(df)
#查看各列数组类型。
print(df.dtypes)
#查看columns值。
print(df.columns)

 

# 用DataFrame构造二维数组df1,数据为6行3列 (6*3) 的随机数 以日期 (从20180725开始,往后6天) 为索引, 列名(columns)为:A, B, C。
dates=pd.date_range("20180725",periods=6)
df1=DataFrame(np.random.randn(6,3),index=dates,columns=["A","B","C"])
print(df1)
#按C列的值进行排序。
print(df1.sort_values(by='C'))
#输出:计数,均值,标准差,最小值,25%,50%,75%分为数值,最大值。
print(df1.describe())
#增加一列D,数据为10, 20, 30, ..., 60。
df1['D']=[10,20,30,40,50,60]
print(df1)
#筛选出A列大于0的数据。
print(df1[df1['A']>0])

备注:课程学习过程中知识整理,

Logo

权威|前沿|技术|干货|国内首个API全生命周期开发者社区

更多推荐