5.1. 相关性分析#

使用软件内的 “相关性分析” 功能，我们可以计算两个变量间的相关系数（correlation coefficient）并检验其显著性。

5.1.1. 数据映射关系#

../../_images/stats-corr-mapping.png — 图 5.55 相关性分析数据映射示意图#

变量 （必选项，多选）：变量数据。将与另一个变量数据分析两者间的相关性。

备注

至少需要两个变量才能进行相关性分析。如果存在多个变量则将两两进行相关性分析。

5.1.2. 分析选项#

计算选项#

../../_images/stats-corr-option-calc.png — 图 5.56 计算选项示意图#

显著性检验：选择相关系数假设检验中计算双尾 P 值抑或是单尾 P 值（右尾）。可选项为 双尾 或 单尾。统计量相关计算方法可参见相关系数的假设检验小节。默认值为 双尾。

5.1.3. 分析结果#

分析选项#

本次相关性分析的分析选项设置。示例可见图 5.57。

../../_images/stats-corr-result-options.png — 图 5.57 分析选项表格示意图#

描述性统计#

各变量的描述性统计结果，包括均值、标准差、中位数等。示例可见图 5.58。

../../_images/stats-corr-result-des-results.png — 图 5.58 描述性统计表格示意图#

双变量相关性#

变量间相关性分析结果，包括 Pearson/Spearman 相关系数以及对应的假设检验结果。统计量的计算方法可参见相关系数小节。示例可见图 5.59。

../../_images/stats-corr-result-corr-test.png — 图 5.59 双变量相关性表格示意图#

运行日志#

相关性分析的运行日志，包含软件版本、运行时间、运行成功与否等信息。示例可见图 5.60。

../../_images/stats-corr-result-log.png — 图 5.60 运行日志示意图#

5.1.4. 统计理论#

协方差#

设 \((X, Y)\) 是一个二维随机变量，若 \(E[(X-E(X))(Y-E(Y))]\) 存在，则此数学期望称作 \(X\) 与 \(Y\) 的协方差（covariance）。记作：

\[ Cov(X, Y) = E[(X-E(X))(Y-E(Y))] \]

协方差的大小可以描述两个变量的相关性关系。当 \(Cov(X, Y) > 0\) 时，称作 \(X\) 与 \(Y\) 正相关，此时 \(X\) 与 \(Y\) 应当同时增加或减小；反之则称为 \(X\) 与 \(Y\) 负相关；当 \(Cov(X, Y) = 0\) 时，则 \(X\) 与 \(Y\) 不相关。

5.1.5. 案例#

我们现有一组受试者 BMI 与低密度脂蛋白（low density lipoprotein，LDL）的数据（如下表），我们欲研究 BMI 与 LDL 间是否有相关性以判断肥胖是否为动脉粥样硬化的危险因素之一。使用相关性分析功能我们可以达成以上分析目的。

BMI     LDL

2	75.0
3	81.2
1	87.8
7	79.2
3	98.6
4	91.4
7	88.2
2	72.0
8	90.1
0	120.4
7	103.4
5	110.6
9	99.6
0	130.0
5	150.6
0	147.2

新建一个 “相关性分析”，在两个 变量 列内分别输入上述数据，如图 5.61 所示：

../../_images/stats-corr-example-data.png — 图 5.61 输入数据示意图#

输入完成后，点击 “下一步” 按钮，确认选择计算 双尾 P 值（图 5.62）。

../../_images/stats-corr-example-option.png — 图 5.62 计算选项设置示意图#

设置完成后，点击 “运行” 按钮以执行相关性分析。在结果中我们查看 “双变量相关性” 表格，由于 BMI 为连续变量，我们关注 Pearson 相关系数——其值为 0.860，对应的 P 值为 0.000（图 5.63）。根据此结果我们可以认为 BMI 与 LDL 之间正相关，肥胖可能是动脉粥样硬化的危险因素之一。

../../_images/stats-corr-example-result.png — 图 5.63 相关性分析结果示意图#

相关性分析

目录