Pandas 是 python 的一个数据分析包,最初作为金融数据分析工具而开发,为时间序列分析提供了很好的支持。主要数据结构包括Series(一维数组)、Time-Series 以时间为索引的Series、DataFrame(二维的表格形式数据结构)、Panel(三维数组,可以为认为是DataFrame的容器)、Panel4D(4维)、PanelND(N维)

简介、安装

官网:https://pandas.pydata.org/docs/index.html

百度pandas也能搜到

点击Getting Started 就可以看见官方教程

安装部分,提供了 conda 安装和 pip 安装的方式,只需要在终端对应环境下输入相应语句即可

pip install pandas
conda install pandas

查看对应版本

import pandas as pd
pd.__version__

如果需要看pandas的一些依赖包的版本,则输入

pd.show_versions()

后面还有一些,图片没有截完整,可以自己尝试。

在intro to pandas栏目下有很多关于pandas的教程,英语还行的话,完全可以学习,因为主要是对表格的操作,类似数据库一样,所有有很多示例。包括如何读写各种格式的表格包括csv、sql、xls等等,以及将表格数据绘图,所以python类似excel工作,大部分就是通过pandas实现的。

 

创建一个dataframe

最常使用的方式是使用字典,字典的key作为列名,而values就是具体的值,例如

可以使用numpy中的random.rand()函数,来初始化表格中的各数值,例如

解释一下np.random.rand(),括号中第一个数表示行数,第二个数表示列数,值为0~1中的任意一个随机数,具体是[0,1),不包含1.

这个是自动列值按照0~n-1的一个数排列过去,当然也可以换成其他属性,例如

其中rand()中的列值,必须与columns中的个数相同。

重命名

对于表格中的列名,如abcd可以进行更名rename

这里只修改了第一列,如果有多列,或者需要修改多列,就在后面加就可以了,如

df = df.rename({'col 1':'col_1','col_2':'new_col 2','col_3':'new_col 3'},axis='columns')

这样一个个写当然可以,但是如果需要修改的时候显得有些不好看,所以还有种写法

 

 然后只需要对列值进行一些小改动,不需要全部重打的话,pandas还提供str.replace()的方法

前面是要被替换的字符,而后面是替换上的字符。同时,如果仅仅是希望在列值前添加一些字符,还有add_prefix()函数,就是添加前缀,当然也有后缀,add_suffix()

也可以看出,只是调用函数,会展示调用效果,但是不会修改df本身的样子,否则第二个就应该是Pre_col one_suf,除非调用时表明了 df = df.add_prefix('Pre_')这样

Logo

权威|前沿|技术|干货|国内首个API全生命周期开发者社区

更多推荐