【jupyter notebook环境】pandas笔记(一)安装、创建DataFrame、列值重命名
Pandas 是 python 的一个数据分析包,最初作为金融数据分析工具而开发,为时间序列分析提供了很好的支持。主要数据结构包括Series(一维数组)、Time-Series 以时间为索引的Series、DataFrame(二维的表格形式数据结构)、Panel(三维数组,可以为认为是DataFrame的容器)、Panel4D(4维)、PanelND(N维)简介、安装官网:https...
Pandas 是 python 的一个数据分析包,最初作为金融数据分析工具而开发,为时间序列分析提供了很好的支持。主要数据结构包括Series(一维数组)、Time-Series 以时间为索引的Series、DataFrame(二维的表格形式数据结构)、Panel(三维数组,可以为认为是DataFrame的容器)、Panel4D(4维)、PanelND(N维)
简介、安装
官网:https://pandas.pydata.org/docs/index.html
百度pandas也能搜到
点击Getting Started 就可以看见官方教程
安装部分,提供了 conda 安装和 pip 安装的方式,只需要在终端对应环境下输入相应语句即可
pip install pandas
conda install pandas
查看对应版本
import pandas as pd
pd.__version__
如果需要看pandas的一些依赖包的版本,则输入
pd.show_versions()
后面还有一些,图片没有截完整,可以自己尝试。
在intro to pandas栏目下有很多关于pandas的教程,英语还行的话,完全可以学习,因为主要是对表格的操作,类似数据库一样,所有有很多示例。包括如何读写各种格式的表格包括csv、sql、xls等等,以及将表格数据绘图,所以python类似excel工作,大部分就是通过pandas实现的。
创建一个dataframe
最常使用的方式是使用字典,字典的key作为列名,而values就是具体的值,例如
可以使用numpy中的random.rand()函数,来初始化表格中的各数值,例如
解释一下np.random.rand(),括号中第一个数表示行数,第二个数表示列数,值为0~1中的任意一个随机数,具体是[0,1),不包含1.
这个是自动列值按照0~n-1的一个数排列过去,当然也可以换成其他属性,例如
其中rand()中的列值,必须与columns中的个数相同。
重命名
对于表格中的列名,如abcd可以进行更名rename
这里只修改了第一列,如果有多列,或者需要修改多列,就在后面加就可以了,如
df = df.rename({'col 1':'col_1','col_2':'new_col 2','col_3':'new_col 3'},axis='columns')
这样一个个写当然可以,但是如果需要修改的时候显得有些不好看,所以还有种写法
然后只需要对列值进行一些小改动,不需要全部重打的话,pandas还提供str.replace()的方法
前面是要被替换的字符,而后面是替换上的字符。同时,如果仅仅是希望在列值前添加一些字符,还有add_prefix()函数,就是添加前缀,当然也有后缀,add_suffix()
也可以看出,只是调用函数,会展示调用效果,但是不会修改df本身的样子,否则第二个就应该是Pre_col one_suf,除非调用时表明了 df = df.add_prefix('Pre_')这样
更多推荐
所有评论(0)