Pandas数据分析包学习记录(笔记整理)
Pandas 是基于 NumPy 的一个 Python 数据分析包,主要目的是为了数据分析。它提供了大量高级的数据结构和对数据处理的方法。pandas主要支持的数据结构:1.series:一维数组,以下标为索引访问;2.Time-Series:时间序列,本质上是一个一维数组,以时间为索引访问;3.DataFrame:二维表格型数据结构;4.Panel:三维数组,可以装载多个DataFrame的容器
·
Pandas 是基于 NumPy 的一个 Python 数据分析包,主要目的是为了数据分析。
它提供了大量高级的数据结构和对数据处理的方法。
pandas主要支持的数据结构:
1.series:一维数组,以下标为索引访问;
2.Time-Series:时间序列,本质上是一个一维数组,以时间为索引访问;
3.DataFrame:二维表格型数据结构;
4.Panel:三维数组,可以装载多个DataFrame的容器。
Series :
是一个一维数组对象 ,类似于 NumPy 的一维 array。它除了包含一组数据还包含一组索引,所以可以把它理解为一组带索引的数组。
DataFrame :
类似于Numpy中利用一维数组构造的二维甚至更高维的数组。是加将多个Series构造为二维数据结构的容器,是Pandas组织复合数据的主流方式。
#(1) 通过pandas的Series构造一维数组s,包含元素分别为:河北省,保定市,22135。
s=Series(["河北省","保定市",22135])
print(s)
print(s.ndim)#s输出s的维度
print(s.shape)#) 输出s的形状。
print(s.values)#输出s的所有值
print("s的索引为:",s.index)#输出s的索引
from pandas import DataFrame
#(通过字典) 构造如下表所示的二维数组df。
df=DataFrame({"Name":["python","Java","C"],"score":[95,85,95],"year":[2018,2017,2016]})
print(df)
#查看各列数组类型。
print(df.dtypes)
#查看columns值。
print(df.columns)
# 用DataFrame构造二维数组df1,数据为6行3列 (6*3) 的随机数 以日期 (从20180725开始,往后6天) 为索引, 列名(columns)为:A, B, C。
dates=pd.date_range("20180725",periods=6)
df1=DataFrame(np.random.randn(6,3),index=dates,columns=["A","B","C"])
print(df1)
#按C列的值进行排序。
print(df1.sort_values(by='C'))
#输出:计数,均值,标准差,最小值,25%,50%,75%分为数值,最大值。
print(df1.describe())
#增加一列D,数据为10, 20, 30, ..., 60。
df1['D']=[10,20,30,40,50,60]
print(df1)
#筛选出A列大于0的数据。
print(df1[df1['A']>0])
备注:课程学习过程中知识整理,
更多推荐
已为社区贡献1条内容
所有评论(0)