sql中group by后使用别名

为什么mysql的group by之后不能使用别名呢，假如有这样一个数据表（t_bike_cnt），一列为日期，另一列为投放车辆数，我们想要统计每个月的投放车辆数，并且过滤出投放车辆大于10的月份和车辆数日期(pt)投放车辆数 (cnt)2020-01-0112020-01-0222020-01-0332020-02-0662020-02-07...

我家大宝最可爱

13918人浏览 · 2020-03-12 17:18:03

我家大宝最可爱 · 2020-03-12 17:18:03 发布

为什么sql的group by之后不能使用别名呢，假如有这样一个数据表（t_bike_cnt），一列为日期，另一列为投放车辆数，我们想要统计每个月的投放车辆数，并且过滤出投放车辆大于10的月份和车辆数

日期(pt)	投放车辆数 (cnt)
2020-01-01	1
2020-01-02	2
2020-01-03	3
2020-02-06	6
2020-02-07	7
2020-03-10	8
2020-03-11	11
2020-03-12	12

我们写出假象的sql

select sub_str(pt,1,7) as year_month
		,sum(cnt) as month_cnt
from t_bike_cnt
group by year_month
having month_cnt >= 10

这个其实是不对的，为什么呢，这是sql执行查询顺序导致的

from where group by having order by select limit

可以看到，select是在group by和 having之后才执行的，这导致什么问题呢，导致group by的时候还没有别名呢，因为别名是在select中生成的，而select是在group by之后，这样就会出错，因此我们可以嵌套一层或者使用视图和with

select sub_str(pt,1,7) as year_month
		,sum(cnt) as month_cnt
from t_bike_cnt
group by sub_str(pt,1,7)
having sum(cnt) >= 10

在mysql中，group by中可以使用别名；where中不能使用别名；order by中可以使用别名。

但是在hive中执行的顺序可是完全不一样的

from... where.... select...group by... having ... order by...limit

这里是先进行select，然后是group by，这样我们在select中定义的别名，就可以在group by中使用了

一个列字段要不在group by里，要不必须在聚合函数里面，不能单独出现，否则报错。

最重要的是请参考这篇sql语句的执行顺序以及流程（分分钟掌握版）

(1) FROM: 对FROM子句中的左表`<left_table>`和右表`<right_table>`执行笛卡儿积，产生虚拟表VT1;
(2) ON: 对虚拟表VT1进行ON筛选，只有那些符合`<join_condition>`的行才被插入，产生虚拟表VT2;
(3) JOIN: 如果指定了`OUTER JOIN`(如LEFT OUTER JOIN、RIGHT OUTER JOIN)，那么保留表中未匹配的行作为外部行添加到虚拟表VT2，产生虚拟表VT3。如果FROM子句包含两个以上的表，则对上一个连接生成的结果表VT3和下一个表重复执行步骤1~步骤3，直到处理完所有的表;
(4) WHERE: 对虚拟表VT3应用WHERE过滤条件，只有符合`<where_condition>`的记录才会被插入到VT4;
(5) GROUP By: 根据GROUP BY子句中的列，对VT4中的记录进行分组操作，产生VT5;
(6) CUBE|ROllUP: 对VT5进行CUBE或ROLLUP操作，产生VT6;
(7) HAVING: 对虚拟表VT6应用HAVING过滤器，只有符合`<having_condition>`的记录才会被插入到VT7;
(8) SELECT: 第二次执行SELECT操作，选择指定的列，插入到虚拟表VT8中;
(9) DISTINCT: 去除重复，得到虚拟表VT9;
(10) ORDER BY: 将虚拟表VT9中的记录按照`<order_by_list>`进行排序操作，得到虚拟表VT10;
(11) LIMIT: 取出指定行的记录，产生虚拟表VT11，并返回给查询用户