logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

R 数据处理 —— 常见文件处理

下面,我们就讲讲如何用R来读取读取常见数据格式文件的方式。

文章图片
#r语言
R 数据处理 —— readr

前面讲过了R自带的读取矩阵型数据的方法,如read.csvread.table等。下面我要介绍的是tidyverse中的readr包提供的读取矩阵型数据的方式readr的目标是提供一种快速友好的方式来读取矩阵型数据,如csvtsv和fwf等。

文章图片
#r语言
R 数据处理 —— apply 家族函数

在上一节中,我们主要介绍了purrr包提供的工具函数来减少for循环的使用,使代码更加的简洁,便于阅读。但是,使用R原生的apply函数家族也能够极大减少for循环的使用。下面我们主要介绍apply函数的使用。apply针对不同的数据类型,会有不同的变形,共同组成了apply函数家族。包括applylapplysapplyvapplytapplymapplyrapplyeapply。

文章图片
#r语言
Python 数据处理 —— pandas csv 文件读写

前言前面我们介绍了 pandas 的基础语法操作,下面我们开始介绍 pandas 的数据读写操作。pandas 的 IO API 是一组顶层的 reader 函数,比如 pandas.read_csv(),会返回一个 pandas 对象。而相应的 writer 函数是对象方法,如 DataFrame.to_csv()。下面列出了所有的 reader 和 writer 函数注意:后面会用到 Stri

文章图片
#python#pandas#windows
Python 数据处理 —— pandas 索引类型

这是一个围绕分类的容器,允许高效地索引和存储具有大量重复元素的索引。重新索引操作将根据所传递索引器的类型返回结果索引。中的一个基本的索引。这是一个不可变的数组,实现了一个有序的、可切片的集合。沿着区间的边缘进行基于标签的索引,就像你期望的那样,选择那个特定的区间。的索引,但是数据是以浮点数的形式记录的。下面是使用这种索引的一个典型的例子。方法处理的输入范围更窄,所以它的性能比华丽的索引快得多。方法

文章图片
#python#pandas#开发语言
Python 数据处理 —— pandas 分组聚合

我们所说的group by拆分:根据指定的标准对数据进行切割,并分为不同的组别应用:分别在每个组中应用函数组合:将所有的结果组合为数据结构在这些步骤中,拆分是最直接的。而事实上,多数情况下,我们可能希望将数据集分成若干组,并对这些分组进行一些操作在应用函数的步骤中,我们可能希望进行以下操作聚合:为每个分组应用一个或多个汇总函数,例如:计算分组的和或均值计算分组的转换:为不同的分组执行不同的计算,并

文章图片
#pandas#python#数据分析
Python 数据处理 —— pandas json 文件读写

在系列的第一节中,我们介绍了如何使用Python的标准库json来读写json格式文件本节,我们将介绍pandas提供的JSON格式的文件和字符串的读写操作。一个Series或DataFrame可以使用to_json方法转换为有效的JSON字符串。orientSeries:默认为index,可选择DataFrame:默认为columns,可选择: 日期转换类型,epoch表示timestampis

文章图片
#python#pandas#json
Python 数据处理 —— pandas 合并连接之 merge

参数传递的字符串可以是列名或索引级别名称,这就可以在不重置索引的情况下,对索引级别和列名进行组合,合并两个。或标准关系代数中,如果一个连接键在两张表中出现一次以上,那么生成的表将具有相关数据的笛卡尔积。:如果用于连接的字符串名称既匹配了索引级别名,又匹配了列名,将会引发一个警告,并有效使用列名。在合并操作之前检查键的唯一性,可以防止内存溢出,也是确保用户数据结构符合预期的一种好方法。显然,你可以选

文章图片
#python#pandas#开发语言
Python 数据处理 —— pandas 分层索引

本节将介绍使用多级索引(分层索引)和其他高级索引技巧MultiIndex会保留索引的所有已经定义了的级别,尽管它们实际上可能并没有被使用。在对索引进行切片时,您可能会注意到这一点。例如这样做的目的是为了避免重新计算级别,以提高切片的性能。如果你只想看某一级别,可以使用方法Out[31]:可以使用方法重构MultiIndex。

文章图片
#python#pandas#开发语言
R 数据处理 —— dplyr

通常,我们读取的数据不可能完全满足我们后续的分析需求,因此需要对读取进来的数据进行处理。比如,创建一些新的变量或总结,或者只是想重命名变量或重新排列观察结果,以便使数据更易于使用。在本节及后续几节,我们将介绍如何使用tidyverse中的dplyr包来对数据进行操作。我们使用的数据是2013年从纽约出发的航班信息。在这里我们的重点是介绍dplyr包的使用,并使用的包中的数据来说明dplyr的核心思

文章图片
#r语言
    共 70 条
  • 1
  • 2
  • 3
  • 7
  • 请选择