Hive 中用于控制动态分区的参数

hive分区

卢延吉 · 2023-06-24 21:42:30 发布

Hive中的动态分区是一种自动创建分区的方法，它可以根据数据中的值来动态创建分区，而无需手动创建每个分区。这种方法可以大大简化数据仓库的管理，并提高处理效率。

动态分区的设计思路是将数据存储在分区表中，而不是非分区表中。分区表是指按照特定列的值进行分区的表。例如，您可以将按日期排序的数据存储在按日期分区的表中。这样，您就可以轻松地查询特定日期范围内的数据，而无需扫描整个表。

动态分区的另一个关键特性是分区键的自动创建。当您向分区表中插入数据时，Hive会自动检测数据中的分区键，并在需要时自动创建分区。例如，如果您正在向按日期分区的表中插入数据，并且数据中包含新的日期值，那么Hive将自动创建一个新的日期分区。

要使用动态分区，您需要在创建表时指定分区键，并将表的存储格式设置为支持动态分区。以下是一个示例DDL语句：

CREATE TABLE my_table (
  col1 STRING,
  col2 INT,
  col3 DOUBLE
)
PARTITIONED BY (date_col STRING)
STORED AS PARQUET

在这个例子中，我们创建了一个名为 my_table 的表，并指定了一个日期分区键。我们还将表的存储格式设置为Parquet，这是一种支持动态分区的高效存储格式。

要向分区表中插入数据，您需要在INSERT语句中指定分区键的值。以下是一个示例INSERT语句：

INSERT INTO my_table PARTITION (date_col='2022-01-01')
VALUES ('value1', 123, 3.14);

在这个例子中，我们向 my_table 表中插入一行数据，并将分区键设置为 date_col=‘2022-01-01’ 。Hive将自动检测到新的分区键，并在需要时自动创建一个新的分区。

总之，动态分区是一种自动创建分区的方法，它可以大大简化数据仓库的管理，并提高处理效率。您可以将数据存储在分区表中，并在插入数据时指定分区键的值，Hive将自动检测到新的分区键，并在需要时自动创建新的分区。

这三个参数都是 Hive 中用于控制动态分区的参数：

hive.exec.max.dynamic.partitions：这个参数控制了在 INSERT INTO 语句中动态分区拆分生成的动态分区的最大数量。默认值为1000。
hive.exec.dynamic.partitions：这个参数用于启用或禁用动态分区功能。如果设置为true，则允许在 INSERT INTO 语句中使用动态分区。如果设置为false，则禁用动态分区功能。默认值为true。
hive.exec.dynamic.partitions.mode：这个参数定义了动态分区的模式，可以取值为strict和nonstrict。在strict模式下，只有分区字段都在INSERT语句的列列表中，才能插入到动态分区中，否则会抛出异常。在nonstrict模式下，只要一些分区字段的值在INSERT INTO 语句的值列表中，就可以插入到动态分区中。默认值为strict。

这三个参数控制了在 INSERT INTO 语句中的动态分区功能，并且可以限制动态分区的数量、启用或禁用动态分区功能以及定义动态分区的严格性。