当前位置：首页 > news >正文

网站建设书籍产品关键词怎么找

news 2025/7/12 22:24:25

网站建设书籍,产品关键词怎么找,网站建设公司工作室,ckplayer怎么上传做网站相关性分析和假设检验相关性系数的作用Pearson相关系数判断线性关系插播：spss中的描述性统计计算相关性对皮尔逊系数进行假设检验条件步骤 MATLAB获取P（没用）SPSS自动生成正态分布判定偏度和峰度 J B JB JB检验（大样本>30&am…

Pearson相关系数

对于两个数据样本 $X:\{X_1,X_2...X_n\},Y:\{Y_1,Y_2,...Y_n\}$

总体均值：
$E(X)=\frac{\sum_{i=1}^{n} X_{i}}{n}, E(Y)=\frac{\sum_{i=1}^{n} Y_{i}}{n}$

总体样本标准差：衡量数据之间的离散程度

$\sigma_{X}=\sqrt{\frac{\sum_{i=1}^{n}\left(X_{i}-E(X)\right)^{2}}{n}}, \sigma_{Y}=\sqrt{\frac{\sum_{i=1}^{n}\left(Y_{i}-E(Y)\right)^{2}}{n}}$

总体协方差：当关系为线性关系时，衡量参数之间的变化方向，值的大小受标准差影响。
$\operatorname{Cov}(X, Y)=\frac{\sum_{i=1}^{n}\left(X_{i}-E(X)\right)\left(Y_{i}-E(Y)\right)}{n}$

总体Pearson相关系数：在协方差基础之上除以方差相当于归一化
$\rho_{X Y}=\frac{\operatorname{Cov}(X, Y)}{\sigma_{X} \sigma_{Y}}=\frac{\sum_{i=1}^{n} \frac{\left(X_{i}-E(X)\right)}{\sigma_{X}} \frac{\left(Y_{i}-E(Y)\right)}{\sigma_{Y}}}{n}$

Pearson相关系数性质：也就是说当 $\rho_{X Y}$ 正就是正相关，负就是负相关。根据值不同相关程度也不同

$\text { 可以证明, }\left|\rho_{X Y}\right| \leq 1, \text { 且当 } Y=a X+b \text { 时, } \rho_{X Y}=\left\{\begin{array}{cc} 1, & a>0 \\ -1, & a<0 \end{array}\right.$

实际上对于样本协方差和总体样本协方差有一些不同，标准差相差 $\frac{n-1}{n}$ 倍，不在解释，属于概率论基础知识。

判断线性关系

我们知道，只有在两个变量之间存在线性关系时，才能使用Pearson系数，所以说数据是否为线性关系非常重要。
为什么非要线性关系呢？直观的看一下：
在这里插入图片描述
当数据非线性时，虽然Pearson相关系数较大，但是我们的线性关系并未很好的解释两个变量之间的关系，出现Pearson相关系数虚高的情况，我们的Pearson相关系数仅仅是为了解释线性关系变量之间的线性程度，所以说我们必须首先知道它们的关系是线性的。

另外：并不是Pearson相关系数低就代表数据之间没有联系，而是可能存在其他关系，比如下图存在二次关系：
在这里插入图片描述
所以说我们如何判断数据之间是否存在线性关系，可以使用画图的方式大致查看：
在spss中导入数据然后如下点击，然后选择矩阵散点图，就可以生成每个关系之间的数据散点图了

在这里插入图片描述
右点图片可以进行编辑图片操作。

在这里插入图片描述

插播：spss中的描述性统计

在这里插入图片描述

计算相关性

数据A是：
在这里插入图片描述

R=corrcoef(A);
name={'身高','体重','肺活量','50米跑','立定跳远','坐位体前屈'};
heatmap(name,name,R,'Colormap',parula);

![在这里插入图片描述](https://img-blog.csdnimg.cn/9fc8b8cf9e3948ab9eedd7ca1e1bf70d.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA44CMIDI1JyBoIOOAjQ==,size_20,color_FFFFFF,t_70,g_se,x_16

对皮尔逊系数进行假设检验

条件

第一，实验数据通常假设是成对的来自于正态分布的总体。
第二，实验数据之间的差距不能太大。皮尔逊相关性系数受异常值的影响比较
大。
第三：每组样本之间是独立抽样的。构造t统计量时需要用到。

步骤

第一步：提出原假设 $H_{0}$ 和备择假设 $H_{1}$ （两个假设是截然相反的哦）假设我们计算出了一个皮尔逊相关系数 $r$ , 我们想检验它是否显著的异于 0 .那么我们可以这样设定原假设和备择假设: $H_{0}: r=0, H_{1}: r \neq 0$
第二步: 在原假设成立的条件下, 利用我们要检验的量构造出一个符合某一分布的统计量 (注 1: 统计量相当于我们要检验的量的一个函数, 里面不能有其他的随机变量)
(注 2 : 这里的分布一般有四种: 标准正态分布、 t 分布、 $\chi^{2}$ 分布和 F 分布) 对于皮尔逊相关系数 r 而言, 在满足一定条件下, 我们可以构造统计量: $\sqrt{\frac{n-2}{1-r^{2}}}$ , 可以证明 $t$ 是服从自由度为 $n - 2$ 的 $t$ 分布

第三步：将我们要检验的这个值带入这个统计量中, 可以得到一个特定的值（检验值）。假设我们现在计算出来的相关系数为 0.5 , 样本为 30 , 那么我们可以得到 $t^{*}=0.5 \sqrt{\frac{30-2}{1-0.5^{2}}}=3.05505$
第四步: 由于我们知道统计量的分布情况, 因此我们可以画出该分布的概率密度函数 $p d f$ , 并给定一个置信水平, 根据这个置信水平查表找到临界值, 并画出检验统计量的接受域和拒绝域。例如, 我们知道上述统计量服从自由度为 $28 的 t$ 分布, 其概率密度函数图形如下:
在这里插入图片描述
第五步：看我们计算出来的检验值是落在了拒绝域还是接受域, 并下结论。因为我们得到的 $t^{*}=3.05505>2.048$ , 因此我们可以下结论: 在 $\%$ 的置信水平上, 我们拒绝原假设 $H_{0}: r=0$ ，因此 $r$ 是显著的不为 $0$ 的。
在这里插入图片描述

MATLAB获取P（没用）

[R,P]=corrcoef(A);

P就是我们的p值，对应于在正太分布外的概率。

拒绝原假设就是在正太分布外围

在这里插入图片描述

SPSS自动生成

在spss中分析–>相关–>双变量中存在显著性相关性
在这里插入图片描述
相关性结果（星号标出）：

正态分布判定

偏度和峰度

在这里插入图片描述

$J B$ 检验（大样本>=30）

在这里插入图片描述

[h,p] = jbtest(A(:,1),0.05)
% 用循环检验所有列的数据
n_c = size(A,2); % number of column 数据的列数
H = zeros(1,n_c);
P = zeros(1,n_c);
for i = 1:n_c[h,p] = jbtest(A(:,i),0.05);H(i)=h;P(i)=p;
end
disp(H);% [1     1     1     1     1     1]
disp(P);% [0.0110    0.0010    0.0136    0.0010    0.0010    0.0393]