DB-hub Technology Oracle PL/SQL的分析函数

PL/SQL的分析函数

Analytic-Function

ORACLE提供了以下分析函数:
1 统计函数(MAX MIN AVG SUM COUNT等)
2.排序函数(ROW_NUMBER RANK DENSE_RNAK FIRST FIRST_VALUE LAST LAST_VALUE LAG LEAD 等)
3.数据分布函数(NTILE CUME_DIST PERCENT_RANK PERCENTILE_CON PERCENTILE_DISC RATIO_TO_REPORT 等)
4.数学分析函数(CORR COVAR_POP COVAR_SAMP STDDEV STDDEV_SAMP VAR_POP VAR_SAMP VARIANCE 等)

1.ROLLUP和CUBE函数

自动汇总数据

     select *from test_tbl
     col_a col_b col_c
     ---- ----- -----
     1 b1 12
     1 b1 2
     1 b2 31
     2 b2 7
     2 b3 42
     2 b3 1
     2 b3 3

如果按A、B列进行汇总C列,用一般的方法是这样:

     select col_a,col_b,sum(col_c) from test_tbl group by col_a,col_b
     col_a col_b sum(col_c)
     ---- ----- --------
     1 b1 14
     1 b2 31
     2 b2 7
     2 b3 46

但是如果这时候还想按A列汇总且要C列的合计数,那就要再用两个SQL来嵌套,很麻烦,不过用rollup就简单多了:

     select nvl(col_a,'合计') col_a,nvl(col_b,decode(col_a,null,'','小计'||col_a)) col_b,sum(col_c)
     from test_tbl group by rollup(col_a,col_b),结果如下
     col_a col_b sum(col_c)
     ---- ----- --------
     1 b1 14
     1 b2 31
     1 小计1 45
     2 b2 7
     2 b3 46
     2 小计2 53
     合计 98

结果集刚好是先按A和B汇总,然后是按A汇总,最后是全部汇总这时候如果再要按B列汇总,怎么办呢?又要用SQL嵌套吗?不是的,如果有这要求的话,改用cube函数就OK啦

     select nvl(col_a,decode(col_b,null,'合计','小计'||col_b)) col_a,nvl(col_b,decode(col_a,null,'','小计'||col_a)) col_b,sum(col_c)
     from test_tbl group by cube(col_a,col_b) 结果如下
     col_a col_b sum(col_c)
     ---- ----- --------
     1 b1 14
     1 b2 31
     1 小计1 45
     2 b2 7
     2 b3 46
     2 小计2 53
     小计b1 b1 14
     小计b2 b2 38
     小计b3 b3 46
     合计 98

跟刚才rollup函数得到的结果集有点不一样,那就是多了些按B列的汇总行。

2.LAG和LEAD函数

自动链接上/下行记录值

     SQL> desc test_tbl
     Name Type
     ----- ------
     COL_K NUMBER

现在按顺序的往这个test_tbl表中插入一系列数据,下面是SQL:

     insert into test_tbl values(1)
     insert into test_tbl values(2)
     insert into test_tbl values(4)
     insert into test_tbl values(5)
     insert into test_tbl values(8)
     insert into test_tbl values(9)
     insert into test_tbl values(11)
     insert into test_tbl values(12)
     insert into test_tbl values(13)
     ........

数据插完后,要检查插入的数据中,从最小数到最大数之间有那些数是没被插入表,找出这些数的前一个和后一个数?如这个例里从1到13当中有目字3、6、7、10没被插入表中,这些数的前一个和后一个分别是2和4、5和8、9和11,即

     PREV_VAL NEXT_VAL
     ---------- ----------
     2 4
     5 8
     9 11

如果不用分析函数要得到这后结果集那真不敢想象是怎么样的一段SQL,但用LAG分析函数那就简单了,这样写就OK

     select prev_val,next_val from(
     select col_k next_val, lag(col_k,1,0) over (order by col_k) prev_val from test_tbl
     ) where next_val-prev_val>1

对于LEAD函数是一样的,只不过它是往后链接而已。

3.RANK和DENSE_RANK函数

对数据进行排名

     select *from test_tbl
     COL_A COL_B
     ---------- ----------
     A 242
     A 233
     B 154
     C 287
     C 76
     D 66
     E 154
     F 154
     G 212
     G 43

按A列来统计B列的值:

     select col_a, sum(col_b) from test_tbl group by col_a order by 2 desc
     COL_A SUM(COL_B)
     ---------- ----------
     A          475
     C          363
     G          255
     B          154
     F          154
     E          154
     D           66

从这个数据集可以看出A是最大的,C是第二大的,当数据多时就不知道谁是排第几了,这时用DENSE_RANK可以达到这目的

     select col_a,sum(col_b),dense_rank() over (order by sum(col_b) desc) ranks from test_tbl group by col_a 结果如下
     COL_A SUM(COL_B) RANKS
     ---------- ---------- ----------
     A          475        1
     C          363        2
     G          255        3
     B          154        4
     F          154        4
     E          154        4
     D           66        5

这个数据集把每个值都排了名次,可以直接看得出,相同值的名次是相同的。
用RANK跟DENSE_RANK差不多,不过就是当出现在名次相同时,下一个名次会跳跃

4.over()分析函数

rank()/dense_rank()

rank()/dense_rank over(partition by ... order by ...)

使用rank()/dense_rank()时,必须要带order by否则非法
rank(): 跳跃排序,如果有两个第一级时,接下来就是第三级。
dense_rank():连续排序,如果有两个第一级时,接下来仍然是第二级。

示例:查询每个部门工资最高的员工信息

SELECT E.ENAME, E.JOB, E.SAL, E.DEPTNO
  FROM (SELECT E.ENAME,
               E.JOB,
               E.SAL,
               E.DEPTNO,
               DENSE_RANK() OVER(PARTITION BY E.DEPTNO ORDER BY E.SAL DESC) RANK
          FROM EMP E) E
 WHERE E.RANK = 1;

min()/max()

SELECT E.ENAME,
       E.JOB,
       E.SAL,
       E.DEPTNO,
       MIN(E.SAL) OVER(PARTITION BY E.DEPTNO) MIN_SAL,
       MAX(E.SAL) OVER(PARTITION BY E.DEPTNO) MAX_SAL,
       NVL(E.SAL - MIN(E.SAL) OVER(PARTITION BY E.DEPTNO), 0) DIFF_MIN_SAL,
       NVL(MAX(E.SAL) OVER(PARTITION BY E.DEPTNO) - E.SAL, 0) DIFF_MAX_SAL
  FROM EMP E;

MAX() OVER(PARTITION BY .. ORDER BY .. DESC) 排序规则只能为desc,否则不起作用,将查询到目前为止排序值最高字段的对应值
MIN() OVER(PARTITION BY .. ORDER BY .. ASC )排序规则只能为asc,否则不起作用,将查询到目前为止排序值最低的字段的对应值

SELECT E.ENAME,
       E.JOB,
       E.SAL,
       E.DEPTNO,
       MIN(E.SAL) OVER(PARTITION BY E.DEPTNO) MIN_SAL01,
       MAX(E.SAL) OVER(PARTITION BY E.DEPTNO) MAX_SAL01,
       MIN(E.SAL) OVER(PARTITION BY E.DEPTNO ORDER BY E.SAL) MIN_SAL02,
       MAX(E.SAL) OVER(PARTITION BY E.DEPTNO ORDER BY E.SAL) MAX_SAL02, --不起作用
       MIN(E.SAL) OVER(PARTITION BY E.DEPTNO ORDER BY E.SAL DESC) MIN_SAL03, --不起作用
       MAX(E.SAL) OVER(PARTITION BY E.DEPTNO ORDER BY E.SAL DESC) MAX_SAL03,
       MIN(E.SAL) OVER(PARTITION BY E.DEPTNO ORDER BY E.SAL ASC) MIN_SAL04,
       MAX(E.SAL) OVER(PARTITION BY E.DEPTNO ORDER BY E.SAL ASC) MAX_SAL04, --不起作用
       NVL(E.SAL - MIN(E.SAL) OVER(PARTITION BY E.DEPTNO), 0) DIFF_MIN_SAL,
       NVL(MAX(E.SAL) OVER(PARTITION BY E.DEPTNO) - E.SAL, 0) DIFF_MAX_SAL
  FROM EMP E;

lead()/lag()

lead()/lag()  over(partition by ... order by ...) 

lead(列名,n,m): 当前记录后面第n行记录的列名的值,没有则默认值为m;如果不带参数n,m,则查找当前记录后面第一行的记录列名的值,没有则默认值为null。
lag(列名,n,m): 当前记录前面第n行记录的列名的值,没有则默认值为m;如果不带参数n,m,则查找当前记录前面第一行的记录列名的值,没有则默认值为null.

查询个人工资与比自己高一位、低一位的工资的差额

SELECT E.ENAME,
        E.JOB,
        E.SAL,
        E.DEPTNO,
        LEAD(E.SAL, 1, 0) OVER(PARTITION BY E.DEPTNO ORDER BY E.SAL) LEAD_SAL, --记录后面第n行记录
        LAG(E.SAL, 1, 0) OVER(PARTITION BY E.DEPTNO ORDER BY E.SAL) LAG_SAL, --记录前面第N行记录
        NVL(LEAD(E.SAL) OVER(PARTITION BY E.DEPTNO ORDER BY E.SAL) - E.SAL,  
            0) DIFF_LEAD_SAL,
        NVL(E.SAL - LEAD(E.SAL) OVER(PARTITION BY E.DEPTNO ORDER BY E.SAL),
            0) DIFF_LAG_SAL
   FROM EMP E;

FIRST_VALUE/LAST_VALUE()

FIRST_VALUE/LAST_VALUE()  OVER(PARTITION BY ...)

取首尾记录示例:

SELECT E.EMPNO,
        E.ENAME,
        E.JOB,
        E.MGR,
        E.SAL,
        E.DEPTNO,
        FIRST_VALUE(E.SAL) OVER(PARTITION BY E.DEPTNO) FIRST_SAL,
        LAST_VALUE(E.SAL) OVER(PARTITION BY E.DEPTNO) LAST_SAL
   FROM EMP E;

ROW_NUMBER()
排序(应用:分页)
示例:

ROW_NUMBER() OVER(PARTITION BY.. ORDER BY ..) 
SELECT E.ENAME, E.JOB, E.SAL, E.DEPTNO,E.ROW_NUM
   FROM (SELECT E.ENAME,
                E.JOB,
                E.SAL,
                E.DEPTNO,
                ROW_NUMBER() OVER(PARTITION BY E.DEPTNO ORDER BY E.SAL) ROW_NUM
           FROM EMP E) E
  WHERE E.ROW_NUM > 3;

查询结果:

sum/avg/count()

sum/avg/count() over(partition by ..)
SELECT E.ENAME,
       E.JOB,
       E.SAL,
       E.DEPTNO,
       SUM(E.SAL) OVER(PARTITION BY E.DEPTNO) SUM_SAL,     --统计某组中的总计值
       AVG(E.SAL) OVER(PARTITION BY E.DEPTNO) AVG_SAL,     --统计某组中的平均值
       COUNT(E.SAL) OVER(PARTITION BY E.DEPTNO) COUNT_SAL  --按某列分组,并统计该组中记录数量
  FROM EMP E;

示例2(全统计):为数据集统计部门销售总和,全公司销售总和,部门销售均值,全公司销售均值

SELECT A.DEPT_ID,
       A.SALE_DATE,
       A.GOODS_TYPE,
       A.SALE_CNT,
       SUM(A.SALE_CNT) OVER(PARTITION BY A.DEPT_ID) DEPT_TOTAL, --部门销售总和
       SUM(A.SALE_CNT) OVER() CMP_TOTAL,  --公司销售总额
       AVG(A.SALE_CNT) OVER(PARTITION BY A.DEPT_ID) DEPT_AVG, --部门销售均值
       AVG(A.SALE_CNT) OVER() CMP_AVG  --公司销售均值
  FROM LEARN_FUN_KEEP A;

rows/range

rows/range  between … preceding and … following

上下范围内求值说明:

  • unbounded:不受控制的,无限的
  • preceding:在…之前
  • following:在…之后
rows between … preceding and … following

示例1:
显示各部门员工的工资,并附带显示该部门的最高工资
写法一:

SELECT E.DEPTNO,
       E.EMPNO,
       E.ENAME,
       E.SAL,
       LAST_VALUE(E.SAL) OVER(PARTITION BY E.DEPTNO ORDER BY E.SAL ROWS
       /*MAX(E.SAL) OVER(PARTITION BY E.DEPTNO ORDER BY E.SAL ROWS*/
       --unbounded preceding and unbouned following针对当前所有记录的前一条、后一条记录,也就是表中的所有记录
       --unbounded:不受控制的,无限的
       --preceding:在...之前
       --following:在...之后
        BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING) MAX_SAL
  FROM EMP E;

示例2:
对各部门进行分组,并附带显示第一行至当前行的汇总

SELECT EMPNO,
       ENAME,
       DEPTNO,
       SAL,
       --注意ROWS BETWEEN unbounded preceding AND current row  是指第一行至当前行的汇总
       SUM(SAL) OVER(PARTITION BY DEPTNO 
                     ORDER BY ENAME 
                     ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) max_sal
  FROM SCOTT.EMP;

示例3:
当前行至最后一行的汇总

SELECT EMPNO,
       ENAME,
       DEPTNO,
       SAL,
       --注意ROWS BETWEEN current row AND unbounded following 指当前行到最后一行的汇总
       SUM(SAL) OVER(PARTITION BY DEPTNO 
                     ORDER BY ENAME 
                     ROWS BETWEEN CURRENT ROW AND UNBOUNDED FOLLOWING) max_sal
  FROM SCOTT.EMP;

示例4:
当前行的上一行(rownum-1)到当前行的汇总

SELECT EMPNO,
       ENAME,
       DEPTNO,
       SAL,
       --注意ROWS BETWEEN 1 preceding AND current row 是指当前行的上一行(rownum-1)到当前行的汇总 
       SUM(SAL) OVER(PARTITION BY DEPTNO 
                     ORDER BY ENAME ROWS 
                     BETWEEN 1 PRECEDING AND CURRENT ROW) max_sal
  FROM SCOTT.EMP;

示例5:
当前行的上一行(rownum-1)到当前行的下两行(rownum+2)的汇总

SELECT EMPNO,
       ENAME,
       DEPTNO,
       SAL,
       --注意ROWS BETWEEN 1 preceding AND 1 following 是指当前行的上一行(rownum-1)到当前行的下辆行(rownum+2)的汇总
       SUM(SAL) OVER(PARTITION BY DEPTNO 
                     ORDER BY ENAME 
                     ROWS BETWEEN 1 PRECEDING AND 2 FOLLOWING) max_sal
  FROM SCOTT.EMP;

NULLS FIRST/LAST
将空值字段记录放到最前或最后显示
说明:通过RANK()、DENSE_RANK()、ROW_NUMBER()对记录进行全排列、分组排列取值,但有时候,会遇到空值的情况,空值会影响得到的结果的正确性
NULLS FIRST/LAST 可以帮助我们在处理含有空值的排序排列中,将空值字段记录放到最前或最后显示,帮助我们得到期望的结果

SELECT E.ENAME,
       E.JOB,
       E.SAL,
       E.DEPTNO,
       RANK() OVER(PARTITION BY E.DEPTNO ORDER BY E.SAL NULLS LAST)
  FROM EMP E;

NTILE(n)
有时会有这样的需求:如果数据排序后分为三部分,业务人员只关心其中的一部分,如何将这中间的三分之一数据拿出来呢?
这时比较好的选择,就是使用NTILE函数
示例:

SELECT E.ENAME,
       E.JOB,
       E.SAL,
       E.DEPTNO,
       NTILE(3) OVER(ORDER BY E.SAL DESC NULLS LAST) ALL_CMP, --若只取前三分之一,all_cmp=1即可,若只取中间三分之一,all_cmp=2即可
       NTILE(3) OVER(PARTITION BY E.DEPTNO ORDER BY E.SAL DESC NULLS LAST) ALL_DEPT  --每个部门的分成三部分
  FROM EMP E

keep(dense_rank first/last)
keep字面意思就是保持,也就是说保存满足keep()括号内条件的记录,这里可以想象到,会有多条记录的情况,即存在多个last或first的情况

  • dense_rank是排序策略
  • first/last是筛选策略

示例:
查看部门 D02 内,销售记录时间最早,销售量最小的记录

SELECT A.DEPT_ID,
       MIN(A.SALE_CNT) KEEP(DENSE_RANK FIRST ORDER BY A.SALE_DATE) MIN_EARLY_DATE
  FROM LEARN_FUN_KEEP A
 WHERE A.DEPT_ID = 'D02'
 GROUP BY A.DEPT_ID;

Leave a Reply

您的邮箱地址不会被公开。 必填项已用 * 标注

Related Post