Analytic-Function
ORACLE提供了以下分析函数:
1 统计函数(MAX MIN AVG SUM COUNT等)
2.排序函数(ROW_NUMBER RANK DENSE_RNAK FIRST FIRST_VALUE LAST LAST_VALUE LAG LEAD 等)
3.数据分布函数(NTILE CUME_DIST PERCENT_RANK PERCENTILE_CON PERCENTILE_DISC RATIO_TO_REPORT 等)
4.数学分析函数(CORR COVAR_POP COVAR_SAMP STDDEV STDDEV_SAMP VAR_POP VAR_SAMP VARIANCE 等)
1.ROLLUP和CUBE函数
自动汇总数据
select *from test_tbl
col_a col_b col_c
---- ----- -----
1 b1 12
1 b1 2
1 b2 31
2 b2 7
2 b3 42
2 b3 1
2 b3 3
如果按A、B列进行汇总C列,用一般的方法是这样:
select col_a,col_b,sum(col_c) from test_tbl group by col_a,col_b
col_a col_b sum(col_c)
---- ----- --------
1 b1 14
1 b2 31
2 b2 7
2 b3 46
但是如果这时候还想按A列汇总且要C列的合计数,那就要再用两个SQL来嵌套,很麻烦,不过用rollup就简单多了:
select nvl(col_a,'合计') col_a,nvl(col_b,decode(col_a,null,'','小计'||col_a)) col_b,sum(col_c)
from test_tbl group by rollup(col_a,col_b),结果如下
col_a col_b sum(col_c)
---- ----- --------
1 b1 14
1 b2 31
1 小计1 45
2 b2 7
2 b3 46
2 小计2 53
合计 98
结果集刚好是先按A和B汇总,然后是按A汇总,最后是全部汇总这时候如果再要按B列汇总,怎么办呢?又要用SQL嵌套吗?不是的,如果有这要求的话,改用cube函数就OK啦
select nvl(col_a,decode(col_b,null,'合计','小计'||col_b)) col_a,nvl(col_b,decode(col_a,null,'','小计'||col_a)) col_b,sum(col_c)
from test_tbl group by cube(col_a,col_b) 结果如下
col_a col_b sum(col_c)
---- ----- --------
1 b1 14
1 b2 31
1 小计1 45
2 b2 7
2 b3 46
2 小计2 53
小计b1 b1 14
小计b2 b2 38
小计b3 b3 46
合计 98
跟刚才rollup函数得到的结果集有点不一样,那就是多了些按B列的汇总行。
2.LAG和LEAD函数
自动链接上/下行记录值
SQL> desc test_tbl
Name Type
----- ------
COL_K NUMBER
现在按顺序的往这个test_tbl表中插入一系列数据,下面是SQL:
insert into test_tbl values(1)
insert into test_tbl values(2)
insert into test_tbl values(4)
insert into test_tbl values(5)
insert into test_tbl values(8)
insert into test_tbl values(9)
insert into test_tbl values(11)
insert into test_tbl values(12)
insert into test_tbl values(13)
........
数据插完后,要检查插入的数据中,从最小数到最大数之间有那些数是没被插入表,找出这些数的前一个和后一个数?如这个例里从1到13当中有目字3、6、7、10没被插入表中,这些数的前一个和后一个分别是2和4、5和8、9和11,即
PREV_VAL NEXT_VAL
---------- ----------
2 4
5 8
9 11
如果不用分析函数要得到这后结果集那真不敢想象是怎么样的一段SQL,但用LAG分析函数那就简单了,这样写就OK
select prev_val,next_val from(
select col_k next_val, lag(col_k,1,0) over (order by col_k) prev_val from test_tbl
) where next_val-prev_val>1
对于LEAD函数是一样的,只不过它是往后链接而已。
3.RANK和DENSE_RANK函数
对数据进行排名
select *from test_tbl
COL_A COL_B
---------- ----------
A 242
A 233
B 154
C 287
C 76
D 66
E 154
F 154
G 212
G 43
按A列来统计B列的值:
select col_a, sum(col_b) from test_tbl group by col_a order by 2 desc
COL_A SUM(COL_B)
---------- ----------
A 475
C 363
G 255
B 154
F 154
E 154
D 66
从这个数据集可以看出A是最大的,C是第二大的,当数据多时就不知道谁是排第几了,这时用DENSE_RANK可以达到这目的
select col_a,sum(col_b),dense_rank() over (order by sum(col_b) desc) ranks from test_tbl group by col_a 结果如下
COL_A SUM(COL_B) RANKS
---------- ---------- ----------
A 475 1
C 363 2
G 255 3
B 154 4
F 154 4
E 154 4
D 66 5
这个数据集把每个值都排了名次,可以直接看得出,相同值的名次是相同的。
用RANK跟DENSE_RANK差不多,不过就是当出现在名次相同时,下一个名次会跳跃
4.over()分析函数
rank()/dense_rank()
rank()/dense_rank over(partition by ... order by ...)
使用rank()/dense_rank()时,必须要带order by否则非法
rank(): 跳跃排序,如果有两个第一级时,接下来就是第三级。
dense_rank():连续排序,如果有两个第一级时,接下来仍然是第二级。
示例:查询每个部门工资最高的员工信息
SELECT E.ENAME, E.JOB, E.SAL, E.DEPTNO
FROM (SELECT E.ENAME,
E.JOB,
E.SAL,
E.DEPTNO,
DENSE_RANK() OVER(PARTITION BY E.DEPTNO ORDER BY E.SAL DESC) RANK
FROM EMP E) E
WHERE E.RANK = 1;
min()/max()
SELECT E.ENAME,
E.JOB,
E.SAL,
E.DEPTNO,
MIN(E.SAL) OVER(PARTITION BY E.DEPTNO) MIN_SAL,
MAX(E.SAL) OVER(PARTITION BY E.DEPTNO) MAX_SAL,
NVL(E.SAL - MIN(E.SAL) OVER(PARTITION BY E.DEPTNO), 0) DIFF_MIN_SAL,
NVL(MAX(E.SAL) OVER(PARTITION BY E.DEPTNO) - E.SAL, 0) DIFF_MAX_SAL
FROM EMP E;
MAX() OVER(PARTITION BY .. ORDER BY .. DESC) 排序规则只能为desc,否则不起作用,将查询到目前为止排序值最高字段的对应值
MIN() OVER(PARTITION BY .. ORDER BY .. ASC )排序规则只能为asc,否则不起作用,将查询到目前为止排序值最低的字段的对应值
SELECT E.ENAME,
E.JOB,
E.SAL,
E.DEPTNO,
MIN(E.SAL) OVER(PARTITION BY E.DEPTNO) MIN_SAL01,
MAX(E.SAL) OVER(PARTITION BY E.DEPTNO) MAX_SAL01,
MIN(E.SAL) OVER(PARTITION BY E.DEPTNO ORDER BY E.SAL) MIN_SAL02,
MAX(E.SAL) OVER(PARTITION BY E.DEPTNO ORDER BY E.SAL) MAX_SAL02, --不起作用
MIN(E.SAL) OVER(PARTITION BY E.DEPTNO ORDER BY E.SAL DESC) MIN_SAL03, --不起作用
MAX(E.SAL) OVER(PARTITION BY E.DEPTNO ORDER BY E.SAL DESC) MAX_SAL03,
MIN(E.SAL) OVER(PARTITION BY E.DEPTNO ORDER BY E.SAL ASC) MIN_SAL04,
MAX(E.SAL) OVER(PARTITION BY E.DEPTNO ORDER BY E.SAL ASC) MAX_SAL04, --不起作用
NVL(E.SAL - MIN(E.SAL) OVER(PARTITION BY E.DEPTNO), 0) DIFF_MIN_SAL,
NVL(MAX(E.SAL) OVER(PARTITION BY E.DEPTNO) - E.SAL, 0) DIFF_MAX_SAL
FROM EMP E;
lead()/lag()
lead()/lag() over(partition by ... order by ...)
lead(列名,n,m): 当前记录后面第n行记录的列名的值,没有则默认值为m;如果不带参数n,m,则查找当前记录后面第一行的记录列名的值,没有则默认值为null。
lag(列名,n,m): 当前记录前面第n行记录的列名的值,没有则默认值为m;如果不带参数n,m,则查找当前记录前面第一行的记录列名的值,没有则默认值为null.
查询个人工资与比自己高一位、低一位的工资的差额
SELECT E.ENAME,
E.JOB,
E.SAL,
E.DEPTNO,
LEAD(E.SAL, 1, 0) OVER(PARTITION BY E.DEPTNO ORDER BY E.SAL) LEAD_SAL, --记录后面第n行记录
LAG(E.SAL, 1, 0) OVER(PARTITION BY E.DEPTNO ORDER BY E.SAL) LAG_SAL, --记录前面第N行记录
NVL(LEAD(E.SAL) OVER(PARTITION BY E.DEPTNO ORDER BY E.SAL) - E.SAL,
0) DIFF_LEAD_SAL,
NVL(E.SAL - LEAD(E.SAL) OVER(PARTITION BY E.DEPTNO ORDER BY E.SAL),
0) DIFF_LAG_SAL
FROM EMP E;
FIRST_VALUE/LAST_VALUE()
FIRST_VALUE/LAST_VALUE() OVER(PARTITION BY ...)
取首尾记录示例:
SELECT E.EMPNO,
E.ENAME,
E.JOB,
E.MGR,
E.SAL,
E.DEPTNO,
FIRST_VALUE(E.SAL) OVER(PARTITION BY E.DEPTNO) FIRST_SAL,
LAST_VALUE(E.SAL) OVER(PARTITION BY E.DEPTNO) LAST_SAL
FROM EMP E;
ROW_NUMBER()
排序(应用:分页)
示例:
ROW_NUMBER() OVER(PARTITION BY.. ORDER BY ..)
SELECT E.ENAME, E.JOB, E.SAL, E.DEPTNO,E.ROW_NUM
FROM (SELECT E.ENAME,
E.JOB,
E.SAL,
E.DEPTNO,
ROW_NUMBER() OVER(PARTITION BY E.DEPTNO ORDER BY E.SAL) ROW_NUM
FROM EMP E) E
WHERE E.ROW_NUM > 3;
sum/avg/count()
sum/avg/count() over(partition by ..)
SELECT E.ENAME,
E.JOB,
E.SAL,
E.DEPTNO,
SUM(E.SAL) OVER(PARTITION BY E.DEPTNO) SUM_SAL, --统计某组中的总计值
AVG(E.SAL) OVER(PARTITION BY E.DEPTNO) AVG_SAL, --统计某组中的平均值
COUNT(E.SAL) OVER(PARTITION BY E.DEPTNO) COUNT_SAL --按某列分组,并统计该组中记录数量
FROM EMP E;
示例2(全统计):为数据集统计部门销售总和,全公司销售总和,部门销售均值,全公司销售均值
SELECT A.DEPT_ID,
A.SALE_DATE,
A.GOODS_TYPE,
A.SALE_CNT,
SUM(A.SALE_CNT) OVER(PARTITION BY A.DEPT_ID) DEPT_TOTAL, --部门销售总和
SUM(A.SALE_CNT) OVER() CMP_TOTAL, --公司销售总额
AVG(A.SALE_CNT) OVER(PARTITION BY A.DEPT_ID) DEPT_AVG, --部门销售均值
AVG(A.SALE_CNT) OVER() CMP_AVG --公司销售均值
FROM LEARN_FUN_KEEP A;
rows/range
rows/range between … preceding and … following
上下范围内求值说明:
- unbounded:不受控制的,无限的
- preceding:在…之前
- following:在…之后
rows between … preceding and … following
示例1:
显示各部门员工的工资,并附带显示该部门的最高工资
写法一:
SELECT E.DEPTNO,
E.EMPNO,
E.ENAME,
E.SAL,
LAST_VALUE(E.SAL) OVER(PARTITION BY E.DEPTNO ORDER BY E.SAL ROWS
/*MAX(E.SAL) OVER(PARTITION BY E.DEPTNO ORDER BY E.SAL ROWS*/
--unbounded preceding and unbouned following针对当前所有记录的前一条、后一条记录,也就是表中的所有记录
--unbounded:不受控制的,无限的
--preceding:在...之前
--following:在...之后
BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING) MAX_SAL
FROM EMP E;
示例2:
对各部门进行分组,并附带显示第一行至当前行的汇总
SELECT EMPNO,
ENAME,
DEPTNO,
SAL,
--注意ROWS BETWEEN unbounded preceding AND current row 是指第一行至当前行的汇总
SUM(SAL) OVER(PARTITION BY DEPTNO
ORDER BY ENAME
ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) max_sal
FROM SCOTT.EMP;
示例3:
当前行至最后一行的汇总
SELECT EMPNO,
ENAME,
DEPTNO,
SAL,
--注意ROWS BETWEEN current row AND unbounded following 指当前行到最后一行的汇总
SUM(SAL) OVER(PARTITION BY DEPTNO
ORDER BY ENAME
ROWS BETWEEN CURRENT ROW AND UNBOUNDED FOLLOWING) max_sal
FROM SCOTT.EMP;
示例4:
当前行的上一行(rownum-1)到当前行的汇总
SELECT EMPNO,
ENAME,
DEPTNO,
SAL,
--注意ROWS BETWEEN 1 preceding AND current row 是指当前行的上一行(rownum-1)到当前行的汇总
SUM(SAL) OVER(PARTITION BY DEPTNO
ORDER BY ENAME ROWS
BETWEEN 1 PRECEDING AND CURRENT ROW) max_sal
FROM SCOTT.EMP;
示例5:
当前行的上一行(rownum-1)到当前行的下两行(rownum+2)的汇总
SELECT EMPNO,
ENAME,
DEPTNO,
SAL,
--注意ROWS BETWEEN 1 preceding AND 1 following 是指当前行的上一行(rownum-1)到当前行的下辆行(rownum+2)的汇总
SUM(SAL) OVER(PARTITION BY DEPTNO
ORDER BY ENAME
ROWS BETWEEN 1 PRECEDING AND 2 FOLLOWING) max_sal
FROM SCOTT.EMP;
NULLS FIRST/LAST
将空值字段记录放到最前或最后显示
说明:通过RANK()、DENSE_RANK()、ROW_NUMBER()对记录进行全排列、分组排列取值,但有时候,会遇到空值的情况,空值会影响得到的结果的正确性
NULLS FIRST/LAST 可以帮助我们在处理含有空值的排序排列中,将空值字段记录放到最前或最后显示,帮助我们得到期望的结果
SELECT E.ENAME,
E.JOB,
E.SAL,
E.DEPTNO,
RANK() OVER(PARTITION BY E.DEPTNO ORDER BY E.SAL NULLS LAST)
FROM EMP E;
NTILE(n)
有时会有这样的需求:如果数据排序后分为三部分,业务人员只关心其中的一部分,如何将这中间的三分之一数据拿出来呢?
这时比较好的选择,就是使用NTILE函数
示例:
SELECT E.ENAME,
E.JOB,
E.SAL,
E.DEPTNO,
NTILE(3) OVER(ORDER BY E.SAL DESC NULLS LAST) ALL_CMP, --若只取前三分之一,all_cmp=1即可,若只取中间三分之一,all_cmp=2即可
NTILE(3) OVER(PARTITION BY E.DEPTNO ORDER BY E.SAL DESC NULLS LAST) ALL_DEPT --每个部门的分成三部分
FROM EMP E
keep(dense_rank first/last)
keep字面意思就是保持,也就是说保存满足keep()括号内条件的记录,这里可以想象到,会有多条记录的情况,即存在多个last或first的情况
- dense_rank是排序策略
- first/last是筛选策略
示例:
查看部门 D02 内,销售记录时间最早,销售量最小的记录
SELECT A.DEPT_ID,
MIN(A.SALE_CNT) KEEP(DENSE_RANK FIRST ORDER BY A.SALE_DATE) MIN_EARLY_DATE
FROM LEARN_FUN_KEEP A
WHERE A.DEPT_ID = 'D02'
GROUP BY A.DEPT_ID;