关于index_col参数的用法

index_col是read_csv中的一个参数。用来指定表格的索引值。index_col的值有三种，整数型，序列，布尔，并且是可选的，默认是None如果您的文件格式不正确，每行末尾都有分隔符，则可以考虑使用index_col=false强制pandas不使用第一列作为索引（行名）。区别在默认为None的时候，pandas会自动将第一列作为索引，并额外添加一列。所以大多我们会使用index_col

文章共670字 · 阅读需要大约3分钟

一键AI生成摘要，助你高效阅读

问答

东石有海

22610人浏览 · 2021-02-23 16:17:30

东石有海 · 2021-02-23 16:17:30 发布

index_col是read_csv中的一个参数。用来指定表格的索引值。

index_col的值有三种，整数型，序列，布尔，并且是可选的，默认是None

如果您的文件格式不正确，每行末尾都有分隔符，则可以考虑使用index_col=false强制pandas不使用第一列作为索引（行名）。

区别

在默认为None的时候，pandas会自动将第一列作为索引，并额外添加一列。所以大多我们会使用index_col=0，直接将第一列作为索引，不额外添加列。

import io
import pandas as pd
t="""index,a,b
hi,hello,pandas"""
df = pd.read_csv(io.StringIO(t))
print(df)

上面是index_col为None的代码（默认为None），结果如下：

  index      a       b
0    hi  hello  pandas

可以看到多了一列，做为line label，也就是行号。

试下index_col为0的情况：

import io
import pandas as pd
t="""index,a,b
hi,hello,pandas"""
df = pd.read_csv(io.StringIO(t),index_col = 0)
print(df)

输出如下(打印出现了错行，不过对写入文件没影响)

           a       b
index
hi     hello  pandas

可以看到这时的line label就是第一列的值。

知道了None和0的作用，那么False呢？

假设你有一个格式错误的文件，哪里错了啊？
文件的每行末尾都有分隔符。这就是格式错误的。

那么就可以使用False来强制不使用第一列作为索引，同时丢弃最后一列。(因为末尾多了个分隔符，所以最后一列就是NaN)

同样来看下演示：

import io
import pandas as pd
t="""index,a,b
hi,hello,pandas,"""
df = pd.read_csv(io.StringIO(t),index_col = 0)
print(df)
df = pd.read_csv(io.StringIO(t),index_col = False)
print(df)
df = pd.read_csv(io.StringIO(t),index_col = None)
print(df)

我这里故意在定义t的时候，给pandas后面加了个逗号。看下结果：

    index       a   b
hi  hello  pandas NaN
  index      a       b
0    hi  hello  pandas
    index       a   b
hi  hello  pandas NaN

看到区别了吧！

如果index_col是None或者0，他们输出时候都会多了个NaN，而且都将第一列作为行号。

而False不会用第一列作为行号，同时还会丢弃最后一列错误的值。

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

GitTalk | 使用面向业务的狮偶编程语言提升开发效率

GitCode 开源社区

GitTalk | DevUI Suits 场景解决方案

GitCode 开源社区

GitTalk | DevUI Admin 前端项目构建

GitCode 开源社区

所有评论(0)

查看更多评论

东石有海

@qq_42835351

已为社区贡献1条内容