Pig 0.11.1 - 在一个时间范围内计数组

wordP

0人浏览 · 2022-09-01 00:31:19

wordP · 2022-09-01 00:31:19 发布

问题:Pig 0.11.1 - 在一个时间范围内计数组

我有一个数据集A,它有时间戳、访问者、URL:

(2012-07-21T14:00:00.000Z, joe, hxxp:///www.aaa.com) 
(2012-07-21T14:01:00.000Z, mary, hxxp://www.bbb.com) 
(2012-07-21T14:02:00.000Z, joe, hxxp:///www.aaa.com)

我想在 10 分钟的时间窗口内测量每个 URL 的每个用户的访问次数,但作为一个按分钟递增的滚动窗口。输出将是:

(2012-07-21T14:00 to 2012-07-21T14:10, joe, hxxp://www.aaa.com, 2)
(2012-07-21T14:01 to 2012-07-21T14:11, joe, hxxp://www.aaa.com, 1)

为了使算术简单,我将时间戳更改为一天中的分钟,如下所示:

(840, joe, hxxp://www.aaa.com) /* 840 = 14:00 hrs x 60 + 00 mins) */

为了通过移动时间窗口迭代“A”,我创建了一个包含一天中分钟数的数据集 B:

(0)
(1)
(2)
.
.
.
.
(1440)

理想情况下,我想做类似的事情:

A = load 'dataset1' AS (ts, visitor, uri)
B = load 'dataset2' as (minute)

foreach B {
C = filter A by ts > minute AND ts < minute + 10;
D = GROUP C BY (visitor, uri);
foreach D GENERATE group, count(C) as mycnt;
}

DUMP B;

我知道在“FOREACH”循环中不允许使用“GROUP”,但是否有解决方法可以达到相同的结果?

谢谢!

解答

也许你可以做这样的事情?

注意: 这取决于您为整数日志创建的分钟数。如果不是,那么您可以四舍五入到最近的分钟。

myudf.py

#!/usr/bin/python

@outputSchema('expanded: {(num:int)}')
def expand(start, end):
        return [ (x) for x in range(start, end) ]

myscript.pig

register 'myudf.py' using jython as myudf ;

-- A1 is the minutes. Schema:
-- A1: {minute: int}
-- A2 is the logs. Schema:
-- A2: {minute: int,name: chararray}
-- These schemas should change to fit your needs.

B = FOREACH A1 GENERATE minute, 
                        FLATTEN(myudf.expand(minute, minute+10)) AS matchto ;
-- B is in the form:
-- 1 1
-- 1 2
-- ....
-- 2 2
-- 2 3
-- ....
-- 100 100
-- 100 101
-- etc.

-- Now we join on the minute in the second column of B with the 
-- minute in the log, then it is just grouping by the minute in
-- the first column and name and counting
C = JOIN B BY matchto, A2 BY minute ;
D = FOREACH (GROUP C BY (B::minute, name)) 
            GENERATE FLATTEN(group), COUNT(C) as count ;

我有点担心较大日志的速度,但它应该可以工作。如果您需要我解释任何事情,请告诉我。

WordPress建站社区

WordPress社区为您提供专业的建站知识与服务支持，提供一步到位的镜像安装和wordpress主题与插件支持

更多推荐

在 WordPress 中使用 MailChimp:它是如何工作的

在 WordPress 中使用 MailChimp:它是如何工作的由于其众多插件,内容管理系统 (CMS) WordPress 提供了许多扩展其功能的机会。您可以以管理员身份管理来自 WordPress 在线商店的订单,或者仅使用仪表板负责整个社区。您还可以使用这个实用的 CMS 来推动您的电子邮件营销。插件可以帮助您为您的 WordPress 网站创建有效的注册表单。将 CMS 与 Mail

WordPress建站社区

如何让您的网站适合移动设备

如何使您的网站适合移动设备近三分之二的美国人现在拥有智能手机,这一事实表明数字世界正变得更加移动化。今天,功能强大的多面手变成了袖珍型,并开始取代许多不同的设备。像打电话或发送短信这样的标准功能正逐渐淡出人们的视线。然而,移动设备上的 Web 应用程序继续流行。美国 10% 的智能手机用户除了在他们的设备上没有任何其他访问互联网的途径。据专家称,到 2021 年,全球移动数据流量将增加五倍,达

WordPress建站社区

创建论坛:最佳选择

创建论坛:最佳选择 Facebook、Twitter、YouTube 等社交网络和 WhatsApp(当然也是 Facebook 的 Messenger)等即时通讯服务塑造了现代在线交流。通过这些渠道,您可以与朋友、家人和其他志同道合的人交流想法——关于一切。说了这么多,令人惊讶的是,传统的互联网论坛,最古老的虚拟交流形式之一,仍然很受欢迎。网络用户仍然很高兴有机会成为(通常)自由社区的一部分