问题:如何使用聚合计算累计?

我正在开发一个简单的财务应用程序来跟踪收入和结果。

为了简单起见,假设这些是我的一些文档:

{ description: "test1", amount: 100, dateEntry: ISODate("2015-01-07T23:00:00Z") }
{ description: "test2", amount: 50,  dateEntry: ISODate("2015-01-06T23:00:00Z") }
{ description: "test3", amount: 11,  dateEntry: ISODate("2015-01-09T23:00:00Z") }
{ description: "test4", amount: 2,   dateEntry: ISODate("2015-01-09T23:00:00Z") }
{ description: "test5", amount: 12,  dateEntry: ISODate("2015-01-09T23:00:00Z") }
{ description: "test6", amount: 4,   dateEntry: ISODate("2015-01-09T23:00:00Z") }

我现在想要的是根据这些数据绘制一个“余额”图表:

{ day: "2015-01-06", amount: 50  }
{ day: "2015-01-07", amount: 150 }
{ day: "2015-01-09", amount: 179 }

换句话说,我需要按天对我的所有交易进行分组,并且每天我需要总结我以前的所有交易(自世界之初以来)。

我已经知道如何按天分组:

$group: {
   _id: { 
      y: {$year:"$dateEntry"}, 
      m: {$month:"$dateEntry"}, 
      d: {$dayOfMonth:"$dateEntry"} 
   }, 
   sum: ???
}

但我不知道如何返回并汇总所有金额。

想象一下,我需要显示每月余额报告:我是否应该运行 31 个查询,每天一个查询,将所有交易的金额相加,除了接下来的几天?当然可以,但不要认为这是最好的解决方案。

解答

实际上比聚合框架更适合mapReduce,至少在最初的问题解决中。聚合框架没有先前文档的值的概念,或者文档的先前“分组”值的概念,所以这就是它不能这样做的原因。

另一方面,mapReduce 有一个“全局范围”,可以在处理阶段和文档时在它们之间共享。这将在您需要的一天结束时为您提供当前余额的“运行总计”。

db.collection.mapReduce(
  function () {
    var date = new Date(this.dateEntry.valueOf() -
      ( this.dateEntry.valueOf() % ( 1000 * 60 * 60 * 24 ) )
    );

    emit( date, this.amount );
  },
  function(key,values) {
      return Array.sum( values );
  },
  { 
      "scope": { "total": 0 },
      "finalize": function(key,value) {
          total += value;
          return total;
      },
      "out": { "inline": 1 }
  }
)      

这将按日期分组求和,然后在“最终确定”部分中计算每天的累积总和。

   "results" : [
            {
                    "_id" : ISODate("2015-01-06T00:00:00Z"),
                    "value" : 50
            },
            {
                    "_id" : ISODate("2015-01-07T00:00:00Z"),
                    "value" : 150
            },
            {
                    "_id" : ISODate("2015-01-09T00:00:00Z"),
                    "value" : 179
            }
    ],

从长远来看,您最好有一个单独的集合,每天都有一个条目,并在更新中使用$inc更改余额。只需在每天开始时执行$incupsert以创建一个新文档,以结转前一天的余额:

// increase balance
db.daily(
    { "dateEntry": currentDate },
    { "$inc": { "balance": amount } },
    { "upsert": true }
);

// decrease balance
db.daily(
    { "dateEntry": currentDate },
    { "$inc": { "balance": -amount } },
    { "upsert": true }
);

// Each day
var lastDay = db.daily.findOne({ "dateEntry": lastDate });
db.daily(
    { "dateEntry": currentDate },
    { "$inc": { "balance": lastDay.balance } },
    { "upsert": true }
);

如何不这样做

虽然确实由于最初的写作有更多的运算符被引入到聚合框架中,但这里所要求的仍然不是在聚合语句中_实用_要做的。

同样的基本规则适用于聚合框架**cannot** 引用来自先前“文档”的值,也不能存储“全局变量”。 _“黑客”_通过将所有结果强制转换为数组:

db.collection.aggregate([
  { "$group": {
    "_id": { 
      "y": { "$year": "$dateEntry" }, 
      "m": { "$month": "$dateEntry" }, 
      "d": { "$dayOfMonth": "$dateEntry" } 
    }, 
    "amount": { "$sum": "$amount" }
  }},
  { "$sort": { "_id": 1 } },
  { "$group": {
    "_id": null,
    "docs": { "$push": "$$ROOT" }
  }},
  { "$addFields": {
    "docs": {
      "$map": {
        "input": { "$range": [ 0, { "$size": "$docs" } ] },
        "in": {
          "$mergeObjects": [
            { "$arrayElemAt": [ "$docs", "$$this" ] },
            { "amount": { 
              "$sum": { 
                "$slice": [ "$docs.amount", 0, { "$add": [ "$$this", 1 ] } ]
              }
            }}
          ]
        }
      }
    }
  }},
  { "$unwind": "$docs" },
  { "$replaceRoot": { "newRoot": "$docs" } }
])

这既不是一个高性能的解决方案,也不是_“安全”,考虑到更大的结果集运行违反 16MB BSON 限制的非常真实的可能性。作为“黄金法则”_,任何建议将所有内容放入单个文档的数组中的内容:

{ "$group": {
  "_id": null,
  "docs": { "$push": "$$ROOT" }
}}

那么这是一个基本缺陷,因此不是解决方案


结论

处理这个问题的更有说服力的方法通常是对结果的运行游标进行后处理:

var globalAmount = 0;

db.collection.aggregate([
  { $group: {
    "_id": { 
      y: { $year:"$dateEntry"}, 
      m: { $month:"$dateEntry"}, 
      d: { $dayOfMonth:"$dateEntry"} 
    }, 
    amount: { "$sum": "$amount" }
  }},
  { "$sort": { "_id": 1 } }
]).map(doc => {
  globalAmount += doc.amount;
  return Object.assign(doc, { amount: globalAmount });
})

所以总的来说,最好:

  • 使用游标迭代和跟踪变量进行总计。mapReduce示例是上述简化过程的人为示例。

  • 使用预先汇总的总计。可能与游标迭代一致,具体取决于您的预聚合过程,无论是间隔总计还是“结转”运行总计。

聚合框架应该真正用于“聚合”,仅此而已。通过诸如操作到数组之类的过程来强制对数据进行强制处理只是为了处理您想要的方式既不明智也不安全,最重要的是,客户端操作代码更加干净和高效。

让数据库做他们擅长的事情,因为你的“操作”在代码中处理得更好。

Logo

MongoDB社区为您提供最前沿的新闻资讯和知识内容

更多推荐