python spark csv数据清洗

abcy071213

246人浏览 · 2026-06-21 23:36:32

abcy071213 · 2026-06-21 23:36:32 发布

在处理Spark中的CSV数据时，数据清洗是一个常见的需求。Apache Spark提供了强大的数据处理能力，可以通过多种方式来清洗和预处理CSV数据。以下是一些常见的方法和步骤：

1. 使用Spark DataFrame API

Spark DataFrame API提供了许多内置的函数和操作，可以用来清洗和转换数据。

示例代码：

from pyspark.sql import SparkSession 
# 初始化
SparkSession spark = SparkSession.builder.appName("CSVDataCleaning").getOrCreate() 
# 读取CSV文件 
df = spark.read.csv("path_to_your_csv_file.csv", header=True, inferSchema=True) 
# 显示数据以查看结构 
df.show() 
# 示例清洗操作： 
# 1. 删除空行 
df = df.na.drop() 

# 2. 删除或填充缺失值 
df = df.na.fill({"column_name": "default_value"}) # 替换缺失值为"default_value" 
# 或者直接删除包含缺失值的行 
df = df.dropna() 

# 3. 转换数据类型 
df = df.withColumn("column_name", df["column_name"].cast("new_data_type")) 

# 4. 选择特定列 
df = df.select("column1", "column2") 

# 5. 过滤数据 
df = df.filter(df["column_name"] > some_value) 

# 显示清洗后的数据 
df.show()

2. 使用Pandas进行数据清洗（适用于小数据集）

如果你正在处理的数据集较小，可以先使用Pandas进行数据清洗，然后再将清洗后的数据加载到Spark中。

示例代码：

import pandas as pd from pyspark.sql 
import SparkSession 

# 使用Pandas读取CSV文件 
df_pandas = pd.read_csv("path_to_your_csv_file.csv") 

# 在Pandas中进行数据清洗，例如删除空值、转换数据类型等 
df_pandas = df_pandas.dropna() # 删除空行 

df_pandas = df_pandas.astype({"column_name": "new_data_type"}) # 转换数据类型 

# 将清洗后的Pandas DataFrame转换为Spark DataFrame 
df_spark = spark.createDataFrame(df_pandas) 

# 显示数据以验证清洗结果 
df_spark.show()

3. 使用SQL进行数据清洗（适用于需要复杂查询的情况）

Spark也支持通过SQL语句来清洗和转换数据。

示例代码：

# 将DataFrame注册为临时视图，以便可以使用SQL语句进行查询和转换 
df.createOrReplaceTempView("my_table") 

# 使用SQL语句进行数据清洗和转换，例如删除空值、过滤数据等 
spark.sql(""" SELECT * FROM my_table WHERE column_name IS NOT NULL AND column_name > some_value """).show()

小结：

选择哪种方法取决于你的具体需求和数据集的大小。对于大规模数据处理，通常使用Spark DataFrame API更为高效。对于小到中等规模的数据集，可以先在Pandas中进行数据清洗，然后转换为Spark DataFrame，这样可以利用Pandas的强大功能，同时保持Spark的分布式处理能力。对于需要复杂查询的情况，使用SQL可能更直观和方便。

亚马逊云科技技术品牌专区

更多推荐

Agent很好，但你的RAG项目可能并不需要它

很多团队踩过的坑是这样的：兴致勃勃搭了一套RAG流水线，向量数据库嵌好了，LLM也接上了，结果用户问一个稍微带点条件的问题，召回的全是噪声。更不用说当塞进去的干扰信息增多时，模型定位准确内容的能力会明显下降，这是“大海捞针”类测试反复验证过的事实——即便模型“捞得到”，速度和价格也不允许你在生产环境里这么干。他要的是文档里的原话，要的是能点开看的出处链接。如果你的任务需要“先查A知识库，再根据结果