Hbase 扫描与 Mapreduce 进行即时计算

neiro

9人浏览 · 2022-09-04 09:12:36

neiro · 2022-09-04 09:12:36 发布

问题:Hbase 扫描与 Mapreduce 进行即时计算

我需要在 HBase 表上计算聚合。

假设我有这个 hbase 表:'元数据'列族:M 列:n

这里元数据对象有一个字符串列表

类元数据 { 列出标签;

}

我需要计算我正在考虑使用 mapreduce 或直接扫描 hbase 的标签数量。

结果必须即时返回。那么在这种情况下我可以使用哪一个呢?扫描 hbase 并计算聚合或 mapreduce?

Mapreduce 最终将扫描 hbase 并计算计数。

使用这两种方法的优缺点是什么?

解答

我怀疑你不知道 HBase 的优缺点是什么,它不适合计算大型数据集的实时聚合。

让我们首先说 MapReduce 本身就是一个预定的作业,您将无法即时返回响应,预计任务跟踪器初始化作业的时间不少于 15 秒。

最后,MapReduce 作业将做完全相同的事情:HBase 扫描,立即执行扫描和 MapReduce 之间的区别只是并行化和数据局部性,当您拥有数百万/数十亿行时,它会表现出色。如果您的查询只需要读取几千个连续行来聚合它们,当然,您可以只进行一次扫描,它可能会有可接受的响应时间,但对于较大的数据集,在查询时就不可能做到这一点.

HBase 最适合处理大量的原子读写,这样,无论您需要多少预聚合计数器或将接收多少请求,您都可以实时维护这些聚合:适当的行键设计和拆分策略可以扩展以满足需求。

将其视为字数统计,您可以将所有单词存储在一个列表中,并在请求时在查询时对其进行计数,或者您可以在插入时处理该列表并存储每个单词在文档中使用的次数,作为全球计数器,并在每日、每月、每年、每个国家、每个作者表(甚至家庭)中。

CMS

更多推荐

我们从奥斯汀·金德那里学到的关于自己管理 1,300 (!!!) 网站的 5 个技巧

Anchor Hosting 创始人 Austin Ginder 对营销和销售的看法确实是独一无二的......而且也非常有效。作为一名独立开发人员和企业主,他自己管理着 1,300 多个 WordPress 网站。继续阅读,看看他是如何管理这一切的,以及他是如何从头开始创业的...... 1.收入不是唯一目标 “从项目过渡到服务对我和我想要追求的东西来说是有意义的。收入方面,从每个项目的基础到收

CMS

从 WordPress 搜索结果中排除页面

如何从 WordPress 搜索结果中排除页面。默认情况下,您 WordPress 网站上的内部搜索将覆盖 WordPress 搜索结果中的所有帖子和页面。为了让您的网站用户更轻松地找到他们正在寻找的内容,您可能需要排除某些页面或帖子,这样它就不会再出现在这些结果中。在本文中,您将学习如何从 WordPress 搜索结果中排除页面或帖子。让我们分开。在这里,我们将看到两种不同的方法来做到这一

CMS

最常见的 WordPress 错误

简介 WordPress 平台非常适合构建网站,但也容易出错。我们都会犯错。这在讨论 WordPress 时尤其准确,即使是最简单的任务对初学者来说也可能令人生畏。但是,只要有一点知识和一些有用的建议,您就可以避免常见的 WordPress 错误,这些错误经常会让人绊倒。在这篇博文中,我们将探讨一些最常见的 WordPress 错误,并为您提供如何修复它们的建议。因此,请继续阅读以了解如何避免这

CMS

所有评论(0)

查看更多评论

neiro

@coc_devpress_07

已为社区贡献20534条内容