MongoDB中的子查询

芒果数据

699人浏览 · 2022-08-23 16:10:46

芒果数据 · 2022-08-23 16:10:46 发布

问题:MongoDB中的子查询

我在 MongoDB 中有两个集合,一个包含用户,一个包含操作。用户大致如下:

{_id: ObjectId("xxxxx"), country: "UK",...}

和像这样的动作

{_id: ObjectId("yyyyy"), createdAt: ISODate(), user: ObjectId("xxxxx"),...}

我正在尝试计算按国家/地区划分的事件和不同的用户。前半部分工作正常,但是当我尝试添加子查询以拉出国家/地区时,我只会得到国家/地区的空值

db.events.aggregate({
    $match: {
        createdAt: { $gte: ISODate("2013-01-01T00:00:00Z") },
        user: { $exists: true }
    }
},
{
    $group: {
        _id: {
            year: { $year: "$createdAt" },
            user_obj: "$user"
        },
        count: { $sum: 1 }
    }
},
{
    $group: {
        _id: {
            year: "$_id.year",
            country: db.users.findOne({ 
                _id: { $eq: "$_id.user_obj" },
                country: { $exists: true } 
            }).country
        },
        total: { $sum: "$count" },
        distinct: { $sum: 1 }
    }
})

解答

这里没有加入,只有我们熊

所以MongoDB“不做连接”。例如,您可能已经在 shell 中尝试过类似的操作:

db.events.find().forEach(function(event) {
    event.user = db.user.findOne({ "_id": eventUser });
    printjson(event)
})

但这并不像您认为的那样。它实际上完全按照它的样子运行,并且对从“事件”集合返回的每个项目运行“用户”集合的查询,包括“到和来自”“客户端”并且不在服务器上运行。

出于同样的原因,您在聚合管道中的“嵌入”语句不能像那样工作。与上述不同的是,“整个管道”逻辑在执行前被发送到服务器。因此,如果您这样做是为了“选择“英国”用户:

db.events.aggregate([
    { "$match": {
        "user": { 
            "$in": db.users.distinct("_id",{ "country": "UK" })
        }
    }}
])

然后,.distinct()查询实际上是在“客户端”而不是服务器上评估的,因此对聚合管道中的任何文档值都不可用。所以.distinct()首先运行,将它的数组作为参数返回,然后将整个管道发送到服务器。这就是执行的顺序。

修正

对于要运行的查询,您至少需要某种程度的反规范化。所以你一般有两种选择:

将您的整个用户对象数据嵌入到事件数据中。

2.至少在事件数据中嵌入“一些”用户对象数据。在这种情况下,“国家”是因为您将使用它。

因此,如果您遵循那里的“第二个”案例并至少“扩展”您现有的数据,以包括“国家”,如下所示:

{
    "_id": ObjectId("yyyyy"), 
    "createdAt": ISODate(), 
    "user": {
        "_id": ObjectId("xxxxx"),
        "country": "UK"
    }
}

那么“聚合”过程就变得简单了:

db.events.aggregate([
    { "$match": {
        "createdAt": { "$gte": ISODate("2013-01-01T00:00:00Z") },
        "user": { "$exists": true }
    }},
    { "$group": {
        "_id": {
            "year": { "$year": "$createdAt" },
            "user_id": "$user._id"
            "country": "$user.country"
        },
        "count": { "$sum": 1 }
    }},
    { "$group": {
        "_id": "$_id.country",
        "total": { "$sum": "$count" },
        "distinct": { "$sum": 1 }
    }}
])

我们不正常

修复您的数据以在我们“不进行连接”的单个集合中包含所需的信息是一个相对简单的过程。只是上面原始查询示例的一个变体:

var bulk = db.events.intitializeUnorderedBulkOp(),
    count = 0;

db.users.find().forEach(function(user) {
    // update multiple events for user
    bulk.find({ "user": user._id }).update({
        "$set": { "user": { "_id": user._id, "country": user.country } }
    });
    count++;

    // Send batch every 1000 
    if ( count % 1000 == 0 ) {
        bulk.execute();
        bulk = db.events.intitializeUnorderedBulkOp();
    }
});

// Clear any queued
if ( count % 1000 != 0 )
    bulk.execute();

这就是它的全部意义所在。对 MongoDB 服务器的单个查询会得到“一个集合”和“一个集合”来使用。即使是如上所示的奇妙的“批量操作”,仍然只能在单个集合上“批处理”。

如果您想做诸如“聚合相关属性”之类的事情,那么您“必须”在要为其聚合数据的集合中包含这些属性。将数据放在单独的集合中是完全可以接受的,例如,“用户”通常会附加更多的信息,而不仅仅是“_id”和“国家”。

但这里的重点是,如果您需要“国家”来分析“用户”的“事件”数据,那么也将其包含在数据中。最有效的服务器加入是“预加入”,这通常是实践中的理论。

MongoDB

MongoDB社区为您提供最前沿的新闻资讯和知识内容

更多推荐

如何克隆 GitHub 存储库(并为 CRUD 应用程序设置自己的数据库)

如果您不熟悉从 GitHub 克隆公共存储库,或者需要一份有关步骤的备忘单,我有(太多)屏幕截图向您展示并提醒自己如何操作。 :) 步骤 1. 从 GitHub 复制链接。 Step 2. 设置目录并在VS Code中打开。打开终端,创建一个您计划将代码文件克隆到的文件夹,使用命令“code”。在 VS Code 中打开文件夹。第三步,克隆代码。在 VS Code 中打开一个新终端。单击终端

MongoDB

带Express Js的酒店预订系统

直到上一个项目,我一直在创建网页并只处理页面的前端部分,但这次我决定创建一个全栈酒店预订系统,该系统将连接一个数据库来跟踪所有预订和活动发生在网页上。问题陈述:首先,如果我们看到我开发这个的原因以及我正在解决什么问题。我需要了解当有人在页面上触发事件时如何从数据库中进行创建、读取、更新和删除操作,并且还想创建一个任何酒店都可以使用的预订系统。如果您想查看代码,这里是github 存储库链接。

MongoDB

为什么要学习 Node 和 ExpressJs

在 Youtube 上观看完整的 Nodejs 和 ExpressJsTutorial Nodejs介绍所以 node.js 首先不是一种语言,它不是一个框架,它是一个免费和开源的 JavaScript 运行时。现在什么是运行时以及它与 javascript 引擎的不同之处,所以 javascript 引擎只是执行代码,但运行时环境就像 node.js 一样在 node.js 中有一些额外的服务