KlustronDB

KlustronDB大约 10 分钟

9.20. 聚集函数

聚集函数从一个输入值的集合计算出一个单一值。内建的通用聚集函数在表 9.52中列出，而统计性聚集在表 9.53中列出。内建的组内有序集聚集函数在表 9.54中列出，而内建的组内假想集聚集在表 9.55中列出。与聚集函数紧密相关的分组操作在表 9.56中列出。第 4.2.7 节中会解释针对聚集函数的特殊语法考虑。额外的介绍信息请参考第 2.7 节。

表 9.52. 通用聚集函数

函数	参数类型	返回类型	部分模式	描述
`array_agg(expression)`	任何非数组类型	参数类型的数组	No	输入值（包括空）被连接到一个数组
`array_agg(expression)`	任意数组类型	和参数数据类型相同	No	输入数组被串接到一个更高维度的数组中（输入必须都具有相同的维度并且不能为空或者 NULL）
`avg(expression)`	`smallint`, `int`, `bigint`、`real`、`double precision`、`numeric`或`interval`	对于任何整数类型参数是`numeric`，对于一个浮点参数是`double precision`，否则和参数数据类型相同	Yes	所有输入值的平均值（算术平均）
`bit_and(expression)`	`smallint`、`int`、`bigint`或`bit`	与参数数据类型相同	Yes	所有非空输入值的按位与，如果没有非空值则结果是空值
`bit_or(expression)`	`smallint`, `int`, `bigint`, or `bit`	与参数数据类型相同	Yes	所有非空输入值的按位或，如果没有非空值则结果是空值
`bool_and(expression)`	`bool`	`bool`	Yes	如果所有输入值为真则结果为真，否则为假
`bool_or(expression)`	`bool`	`bool`	Yes	至少一个输入值为真时结果为真，否则为假
`count(*)`		`bigint`	Yes	输入的行数
`count(expression)`	any	`bigint`	Yes	`expression`值非空的输入行的数目
`every(expression)`	`bool`	`bool`	Yes	等价于`bool_and`
`json_agg(expression)`	`any`	`json`	No	将值聚集成一个 JSON 数组
`jsonb_agg(expression)`	`any`	`jsonb`	No	把值聚合成一个 JSON 数组
`json_object_agg(name, value)`	`(any, any)`	`json`	No	将名字/值对聚集成一个 JSON 对象
`jsonb_object_agg(name, value)`	`(any, any)`	`jsonb`	No	把名字/值对聚合成一个 JSON 对象
`max(expression)`	任意数组、数字、串、日期/时间、网络或者枚举类型，或者这些类型的数组	与参数数据类型相同	Yes	所有输入值中`expression`的最大值
`min(expression)`	任意数组、数字、串、日期/时间、网络或者枚举类型，或者这些类型的数组	与参数数据类型相同	Yes	所有输入值中`expression`的最小值
`string_agg(expression, delimiter)`	(`text`, `text`) 或 (`bytea`, `bytea`)	与参数数据类型相同	No	输入值连接成一个串，用定界符分隔
`sum(expression)`	`smallint`、`int`、 `bigint`、`real`、`double precision`、`numeric`、 `interval`或`money`	对`smallint`或`int`参数是`bigint`，对`bigint`参数是`numeric`，否则和参数数据类型相同	Yes	所有输入值的`expression`的和
`xmlagg(expression)`	`xml`	`xml`	No	连接 XML 值（参见第 9.14.1.7 节）

请注意，除了count以外，这些函数在没有行被选中时返回空值。尤其是sum函数在没有输入行时返回空值，而不是零，并且array_agg在这种情况返回空值而不是一个空数组。必要时可以用coalesce把空值替换成零或一个空数组。

支持部分模式的聚集函数有资格参与到各种优化中，例如并行聚集。

注意

布尔聚集bool_and和bool_or对应于标准的 SQL 聚集every和any或some。而对于any 和some，似乎在标准语法中有一个歧义：

SELECT b1 = ANY((SELECT b2 FROM t2 ...)) FROM t1 ...;

如果子查询返回一行有一个布尔值的结果，这里的ANY可以被认为是引入一个子查询，或者是作为一个聚集函数。因而标准的名称不能指定给这些聚集。

注意

在把count聚集应用到整个表上时，习惯于使用其他 SQL 数据管理系统的用户可能会对它的性能感到失望。一个如下的查询：

SELECT count(*) FROM sometable;

将会要求与整个表大小成比例的工作：PostgreSQL将需要扫描整个表或者整个包含表中所有行的索引。

与相似的用户定义的聚集函数一样，聚集函数array_agg、 json_agg、jsonb_agg、json_object_agg、jsonb_object_agg、string_agg和xmlagg会依赖输入值的顺序产生有意义的不同结果值。这个顺序默认是不用指定的，但是可以在聚集调用时使用ORDER BY子句进行控制，如第 4.2.7 节中所示。作为一种选择，从一个排序号的子查询来提供输入值通常会有帮助。例如：

SELECT xmlagg(x) FROM (SELECT x FROM test ORDER BY y DESC) AS tab;

注意如果外面的查询层次包含额外的处理（例如连接），这种方法可能会失败，因为这可能导致子查询的输出在计算聚集之前被重新排序。

表 9.53展示了通常被用在统计分析中的聚集函数（这些被隔离出来是为了不和常用聚集混淆）。其中描述提到了**N，它表示对应于所有非空输入表达式的输入行的数目。在所有情况中，如果计算是无意义的，将会返回空值，例如当N**为零。

表 9.53. 用于统计的聚集函数

函数	参数类型	返回类型	部分模式	描述
`corr(Y, X)`	`double precision`	`double precision`	Yes	相关系数
`covar_pop(Y, X)`	`double precision`	`double precision`	Yes	总体协方差
`covar_samp(Y, X)`	`double precision`	`double precision`	Yes	样本协方差
`regr_avgx(Y, X)`	`double precision`	`double precision`	Yes	自变量的平均值（`sum(X)/N`）
`regr_avgy(Y, X)`	`double precision`	`double precision`	Yes	因变量的平均值（`sum(Y)/N`）
`regr_count(Y, X)`	`double precision`	`bigint`	Yes	两个表达式都不为空的输入行的数目
`regr_intercept(Y, X)`	`double precision`	`double precision`	Yes	由（`X`, `Y`）对决定的最小二乘拟合的线性方程的 y截距
`regr_r2(Y, X)`	`double precision`	`double precision`	Yes	相关系数的平方
`regr_slope(Y, X)`	`double precision`	`double precision`	Yes	由（`X`, `Y`）对决定的最小二乘拟合的线性方程的斜率
`regr_sxx(Y, X)`	`double precision`	`double precision`	Yes	`sum(X^2) - sum(X)^2/N`（自变量的“平方和”）
`regr_sxy(Y, X)`	`double precision`	`double precision`	Yes	`sum(XY) - sum(X) sum(Y)/N`（自变量乘以因变量的“积之合”）
`regr_syy(Y, X)`	`double precision`	`double precision`	Yes	`sum(Y^2) - sum(Y)^2/N`（因变量的“平方和”）
`stddev(expression)`	`smallint`、`int`、 `bigint`、`real`、`double precision`或`numeric`	浮点参数为`double precision`，否则为`numeric`	Yes	`stddev_samp`的历史别名
`stddev_pop(expression)`	`smallint`、`int`、 `bigint`、`real`、`double precision`或`numeric`	浮点参数为`double precision`，否则为`numeric`	Yes	输入值的总体标准偏差
`stddev_samp(expression)`	`smallint`、`int`、 `bigint`、`real`、`double precision`或`numeric`	浮点参数为`double precision`，否则为`numeric`	Yes	输入值的样本标准偏差
`variance`(`expression`)	`smallint`、`int`、 `bigint`、`real`、`double precision`或`numeric`	浮点参数为`double precision`，否则为`numeric`	Yes	`var_samp`的历史别名
`var_pop`(`expression`)	`smallint`、`int`、 `bigint`、`real`、`double precision`或`numeric`	浮点参数为`double precision`，否则为`numeric`	Yes	输入值的总体方差（总体标准偏差的平方）
`var_samp`(`expression`)	`smallint`、`int`、 `bigint`、`real`、`double precision`或`numeric`	浮点参数为`double precision`，否则为`numeric`	Yes	输入值的样本方差（样本标准偏差的平方）

表 9.54展示了一些使用 有序集聚集语法的聚集函数。这些函数有时也被称为 “逆分布”函数。

表 9.54. 有序集聚集函数

函数	直接参数类型	聚集参数类型	返回类型	部分模式	描述
`mode() WITHIN GROUP (ORDER BY sort_expression)`		任何可排序类型	与排序表达式相同	No	返回最频繁的输入值（如果有多个频度相同的值就选第一个）
`percentile_cont(fraction) WITHIN GROUP (ORDER BY sort_expression)`	`double precision`	`double precision`或者`interval`	与排序表达式相同	No	连续百分率：返回一个对应于排序中指定分数的值，如有必要就在相邻的输入项之间插值
`percentile_cont(fractions) WITHIN GROUP (ORDER BY sort_expression)`	`double precision[]`	`double precision`或者`interval`	排序表达式的类型的数组	No	多重连续百分率：返回一个匹配`fractions`参数形状的结果数组，其中每一个非空元素都用对应于那个百分率的值替换
`percentile_disc(fraction) WITHIN GROUP (ORDER BY sort_expression)`	`double precision`	一种可排序类型	与排序表达式相同	No	离散百分率：返回第一个在排序中位置等于或者超过指定分数的输入值
`percentile_disc(fractions) WITHIN GROUP (ORDER BY sort_expression)`	`double precision[]`	任何可排序类型	排序表达式的类型的数组	No	多重离散百分率：返回一个匹配`fractions`参数形状的结果数组，其中每一个非空元素都用对应于那个百分率的输入值替换

所有列在表 9.54中的聚集会忽略它们的已排序输入中的空值。对那些有一个**fraction**参数的聚集来说，该分数值必须位于 0 和 1 之间，否则会抛出错误。不过，一个空分数值会产生一个空结果。

每个列在表 9.55中的聚集都与一个定义在第 9.21 节中的同名窗口函数相关联。在每种情况中，聚集结果的计算方法是：假设根据**args构建的“假想”行已经被增加到从sorted_args**计算得到的已排序行分组中，然后用相关联的窗口函数针对该行返回的值就是聚集的结果。

表 9.55. 假想集聚集函数

函数	直接参数类型	聚集参数类型	返回类型	部分模式	描述
`rank(args) WITHIN GROUP (ORDER BY sorted_args)`	`VARIADIC` `"any"`	`VARIADIC` `"any"`	`bigint`	No	假想行的排名，为重复的行留下间隔
`dense_rank(args) WITHIN GROUP (ORDER BY sorted_args)`	`VARIADIC` `"any"`	`VARIADIC` `"any"`	`bigint`	No	假想行的排名，不留间隔
`percent_rank(args) WITHIN GROUP (ORDER BY sorted_args)`	`VARIADIC` `"any"`	`VARIADIC` `"any"`	`double precision`	No	假想行的相对排名，范围从 0 到 1
`cume_dist(args) WITHIN GROUP (ORDER BY sorted_args)`	`VARIADIC` `"any"`	`VARIADIC` `"any"`	`double precision`	No	假想行的相对排名，范围从 1/`N` 到 1

对于这些假想集聚集的每一个，**args中给定的直接参数列表必须匹配sorted_args**中给定的聚集参数的数量和类型。与大部分的内建聚集不同，这些聚集并不严格，即它们不会丢弃包含空值的输入行。空值的排序根据ORDER BY子句中指定的规则进行。

表 9.56. 分组操作

函数	返回类型	描述
`GROUPING(args...)`	`integer`	整数位掩码指示哪些参数不被包括在当前分组集合中

分组操作用来与分组集合（见第 7.2.4 节）共同来区分结果行。GROUPING操作的参数并不会被实际计算，但是它们必须准确地匹配在相关查询层次的GROUP BY子句中给定的表达式。最右边参数指派的位是最低有效位，如果对应的表达式被包括在产生结果行的分组集合的分组条件中则每一位是 0，否则是 1。例如：

=> SELECT * FROM items_sold;
 make  | model | sales
-------+-------+-------
 Foo   | GT    |  10
 Foo   | Tour  |  20
 Bar   | City  |  15
 Bar   | Sport |  5
(4 rows)

=> SELECT make, model, GROUPING(make,model), sum(sales) FROM items_sold GROUP BY ROLLUP(make,model);
 make  | model | grouping | sum
-------+-------+----------+-----
 Foo   | GT    |        0 | 10
 Foo   | Tour  |        0 | 20
 Bar   | City  |        0 | 15
 Bar   | Sport |        0 | 5
 Foo   |       |        1 | 30
 Bar   |       |        1 | 20
       |       |        3 | 50
(7 rows)