对包含连接的表执行增量 Sqoop?

BIGdd

0人浏览 · 2022-09-04 04:02:16

BIGdd · 2022-09-04 04:02:16 发布

问题:对包含连接的表执行增量 Sqoop?

我有一些非常大的表,我试图将它们从源系统数据仓库中 sqoop 到 HDFS,但这样做的带宽有限。我只想拉出我需要的列,并尽量减少让桌子站起来的运行时间。

sqoop 当前拉取如下内容:

SELECT
    ColumnA,
    ColumnB,
    ....
    ColumnN
FROM
    TABLE_A
LEFT JOIN
    TABLE_B
ON
     ...
LEFT JOIN
    TABLE_N
....

考虑到数据以星型模式格式存储,并且维度可以独立于事实更新,是否可以执行增量 sqoop?

或者,对于我需要的列,增量地对整个表进行 sqoop 并在 HDFS 端执行连接是唯一的解决方案吗?

解答

对于增量导入,您需要使用 --incremental 标志。请参阅以下链接以获取更多信息:-

https://sqoop.apache.org/docs/1.4.2/SqoopUserGuide.html#_incremental_imports

您需要指定--incremental 告诉sqoop 您想要增量加载--check-column 指定用于增量sqooping 的列和--last-value 来说明您希望从哪个值开始sqooping 下一次加载。这只是图片的一半。有更多方法可以做到这一点。例如。您可以使用 --query 选项,您的查询就像 Select * from table where column > 123 一样。这基本上是一回事。您需要记录所选列的最后/最大值并将其用于下一次导入。

向你推荐>>>开发者社区

华为、百度、京东云现已入驻，来创建你的专属开发者社区吧！

更多推荐

关于 Jupyter 笔记本最糟糕的五件事

我曾经喜欢 Jupyter。我仍然认为它们是许多任务的绝佳工具,例如探索性数据分析和轻松轻松地向同事展示见解。然而,虽然它们有时非常适合数据科学,但有时却令人头疼。像任何软件工具一样,它们也有其缺点。以下是 Jupyter Notebooks 用于数据科学的五个最糟糕的事情: 1.练习良好的代码版本控制几乎是不可能的 Jupyter Notebooks 对于代码版本控制来说很糟糕。问题是它们存储为

大数据

2023 年流行的大数据和数据科学角色

数据科学和大数据提供了广泛的职业前景。涉及数据的角色的扩展伴随着数据科学的出现。它是当今最流行和最前沿的技术应用领域之一,这是有道理的。数据科学目前可能是最好的就业市场。与此同时,这一发展中的主题正在改变众多业务和技术。随着所有垂直领域的行业越来越受数据驱动,就业市场和必要的技能受到影响。随着我们学习新的数据接触点和评估方法,我们生活的社会、日常生活和国家经济越来越依赖数据。这是大数据和数据科学能

大数据

数据科学的主要组成部分和特点

数据科学是十年来增长最快、最具挑战性和高薪的工作之一。那么,究竟什么是数据科学?数据科学是一个跨学科领域,它结合了统计学、计算机科学和机器学习算法,以从结构化和非结构化数据中获得洞察力。据《经济时报》报道,尽管供应增长缓慢,但印度对通过数据科学课程认证的各行业数据科学专业人员的需求增长了 400% 以上。数据科学的组成部分 1\。数据探索这是最关键的一步,因为它花费的时间最多。数据探索消耗了大