Numpy和 Pandas快速入门

一. Numpy 是一个开源的数据计算库

python 两者都可以处理多维数组

Numpy优点
1.减少编程量
2 .增加运算效率
3. 减少内存消耗 

ndarray 数组 包括 数据指针 数据类型 维度 跨度。

1. 特殊数组的创建 Numpy.zeros
全1数组 numpy.ones
等间距数组1 numpy.arrange()
等间距数组2 numpy.linspace()
array: [0,1,2, 3, 4, 5, 6, 7, 8, 9]
2. numpy 数组之 切片 与索引 (1)
 索引 按照下标取值a[1] ->  从 0 开始
 数组切片 a[0:5] ->  array([0,1, 2, 3,4 ])   左闭右开
slice函数 s = slice(0, 5, 2)  a[s] -> array([0, 2, 4])   
类似于切片操作
3. Numpy 数组之切片与 索引
 切片参数  (start:stop, step )
 start--  起始范围   stop -- 终止范围  不包括  step  间距默认是1。
 进行数据的操作
 numpy.reshape()   改变数组的形状
 numpy.flat()  # 将数组展示为一维数组
 numpy.transpose()  # 控制反转
 numpy.stack()   #  连接数组
 numpy.append()  # 在 数组末尾增加元素
 numpy.inset()  # 在 指定的元素位 上插入元素
 numpy.delete()   返回删除后的新数组
4.NumPy 矩阵操作
np.matlib.empty()  返回未初始化的新矩阵
np.matlib.zero  返回全0 矩阵
np.matlib.ones  返回全1 矩阵
np.matlib.eye  对角矩阵
np.matlib.identity   返回给定大小的单位矩阵
np.matlib.rand   返回指定的随机数 填充 矩阵
5. 数组转化为矩阵

直观区别: 矩阵和数组的区别,矩阵没有用逗号隔开.
np.mat()
matrix() 确保数据的安全性

二. Pandas 数据处理

1. Pandas 处理的数据类型

数据格式  Pandas 包含了高级的数据结构 DataFrame  和 Series
日期处理  Pandas 包含了时间序列化的处理方法 ,可以生成或者处理日期数据
文件操作  Pandas  可方便快捷的对CSV excel 和 TSV  文进行读写操作
数据分析  Pandas   中提供了大量的方法 用于数据得处理和分析

2. Pandas 中的数据结构 Series

Series  可简单的看作是一维数组
Series具有索引 默认 是 0 - n. 
Series  可以使用字典 数组 等数据进行创建.

3. Pandas 中的数据结构 DataFrame

(1).DataFrame是由数个series 按行合并而成的二维数据结构(表格型)。
(2) 具有行索引和列索引
(3) 可以使用字典 数组 series 等数据进行创建 

DataFrame 常见操作

1. 创建 DataFrame   pd.DataFrame(data) 
2. 查看数据   
	Df.head(n)  查看前 n条数据   Df.tail(n):查看后n 条数据 
3. 数据属性
	Df.index()  查看索引 
	Df.columns()  列索引
	Df.values() 查看数据 
4. 数据量统计 
	Df.describe(): 纯数值数据的统计信息。 
5. 数据索引
   	Df.iloc 按照下标选取数据  
   	Df. loc: 按照索引选取 
   	Df.ix  按照下标和索引混合取值 
6.  切片 
  	 和列表相同
  	 按照bool 切片

4. 时间序列

4.1 时间序列
时间戳: timestamp 特定的时刻。
固定时间: period 如2019 年全年或者某个月份
时间间隔: interval 由起始和结束时间戳标识。

时间序列常用操作
1. 时间索引 pd.DatatimeIndex() 
2. 时间格式解析 pd.to_datetime()
3. 时间错 pd.date_range() 
4. 生成日期 pd.period_range()
5. 时间差 pd.timedelta_range() 
6. 日期的减法操作 
    时间序列-日期  或者日期 - 日期  

5. 数据处理

1. 缺失值  Pandas 中提供了缺失值数据处理的常用方法 包括填充,删除等操作 
2.  统计值  数据统计信息  Pandas  中提供了数据统计方法,如均值 求和 累计 等操作 
3. 可视化    数据可视化 Pandas  数据可以直接使用绘图的形式来查看 。
5.1 缺失处理
空值/ 缺失值判断  Df.isnull/Df.isna() ;
缺失值填充    Df.fillna(data) 
空值和缺失值 空值: "" """ NaN , Nat 
删除  Df.dropna() 
5.2 数据处理方法
	(1)  计算
		Df.sum()  求和 
		Df.mean()  求均值   
	(2) 统计量  
	    Df.max()  最大值 
	    Df.min()    最小值
	    Df.count(): 非NaN  统计 
	    Df.median() : 中位数 
	    Df.std() 标注差 
	 (3)  累计
	    Df.cumsum()  累计求和 
	 (4) 排序 
	 	Df.sort__index()  按照索引排序 
	 	Df.rank()  按照rank 值 排名 
	(5) 分组
		df.groupby(col)  按照列col 分组
	(6) 其他
	 	Df.cov() : 协助方差矩阵
	 	Df.corrwith(df2) 相关系数 
	 	pd.cut()  一维数据的区间分布 
5.3 Pandas 其他操作
1.Pandas  中提供了 操作excel  文件的方法 
to_excel/read_excel 
2.Pandas 中 提供了 csv  文件操作的方法 
to_csv/ read_csv
3. 合并两个dataframe 中的数据
df.append()/ df.concat() 
Logo

瓜分20万奖金 获得内推名额 丰厚实物奖励 易参与易上手

更多推荐