Math & Linear Algebra/Concepts

Pearson & Spearman correlation coefficients

metamong 2022. 5. 13.

🧓🏻 데이터분석에 있어서 꼭 알고 넘어가야 할 개념인 두 coefficients 종류 Pearson과 Spearman에 대해 자세히 알아보자

≫ 저번 coursera 강좌 posting에서 아주 잠깐 배웠던 적이 있었다

🏄🏻 coefficients를 사용하게 된 배경 및 두 가지 종류의 coefficients를 자세히 살펴보면

from covariance>

🏄🏻 covariance란 '1개의 변수 값이 변화할 때 다른 변수가 어떠한 연관성을 나타내며 변하는 지를 측정하는 것'이다

🏄🏻 분산 = '한 개의 데이터가 퍼져 있는 정도'

🏄🏻 공분산(공통된 분산) = '두 개의 데이터가 퍼져 있는 정도(한 개의 변수가 왔다갔다 움직이는 동안 다른 변수가 어느 정도로 퍼져 있는 지 측정)'

- 아래 그림과 함께 -

① covariance > 0 (positive covariance): 하단 왼쪽 그림을 보면 x가 높아지면 y값도 같이 높아지는 걸 볼 수 있다

② covariance < 0 (negative covariance): 하단 중간 그림을 보면 x가 높아지면 y값은 감소함을 확인할 수 있다

③ covariance ≒ 0: 하단 오른쪽 그림을 보면 두 x와 y변수가 높고 낮음에 대하여 관련 있는 관계를 볼 수 없다

- covariance 원리

☀️ 실제로 계산하거나 사용되지 않음!

→ variable scale에 따라 covariance가 달라지기 때문에 correlation을 위한 일종의 stepping stone이라 생각하기

☀️ covariance 식($\bar{x}$, $\bar{y}$는 각각 x와 y의 평균)

${\huge{\sum(x-\bar{x})(y-\bar{y})\over n-1}}$

→ 위 식의 분자를 보면 x와 y의 평균을 기준으로 총 네 개의 사분면으로 나누었을 때, 제 1과 3사분면은 covariance 양의 값 / 제 2와 4사분면은 covariance 음의 값을 보인다

→ 제 1,3 사분면을 지나는 건 positive relationship / 제 2,4 사분면을 지나는 건 negative relationship이라 할 수 있음

☀️ covariance 결괏값의 부호가 아닌 ~~값 자체~~는 유용하지 않다. 값으로 line의 기울기가 ~~어느 정도로 steep~~한 지는 알 수 없음 & 추가적으로 ~~실제 점들이 실제 relationship line에 어느 정도로 가까운 지~~도 알 수 없다

☀️ 하지만 기존 x와 y value에서 y value만 scale을 높이더라도 covariance 값 자체가 바뀌는 걸 확인할 수 있다
(scale만 바뀌어서 relationship line은 똑같음에도 불구하고)

∴ covariance values are sensitive to the scale of the data, and this makes them difficult to interpret

☀️ 해결법? correlation! 🐥 correlation을 계산하는 초석으로 covariance 개념이 사용된다

- variance-covariance matrix

a = b = np.arange(5, 50, 5)
c = d = np.arange(10,100,10)

fake_data = {"a": a, "b": b, "c": c, "d": d}

df = pd.DataFrame(fake_data)

df.cov()

→ 자기자신과의 covariance값은 variance를 뜻하며, c와 d로 scale을 높이면, 높인만큼 covariance값이 증가했음을 code로 확인 가능!

🔮 우리는 이렇게 covariance matrix를 통해 (2차원 이상에서의) 데이터의 분포를 파악할 수 있다!
(covariance matrix → 각 vector의 variance와 covariance를 가지는 matrix)

🔮 각 vector의 variance(즉 matrix에서의 대각성분)를 통해 각 vector별로 데이터가 얼마나 흩어져 있는 지의 정도를 알 수 있다

🔮 covariance를 쉽게 구하기 위해 각 vector별 평균을 0으로 맞추어 평균을 원점에 갖다대고 계산하는 게 더 쉽다
(그렇게 되면 covariance는 각 좌표끼리의 곱만 하면 됨 - product of coordinates)

+ using vectors - orthogonality>

🔮 'orthogonality'란 벡터가 서로 수직으로 있는 상태를 뜻한다

🔮 벡터들끼리는 서로 조금이라도 상관관계가 있음 (covariance 값을 통해 증명)을 알았다. 이 때 벡터가 서로 수직이라면 상관관계가 전혀 없다고 해석 가능!

🔮 두 벡터가 서로 수직이다 = 두 벡터의 내적값이 0이다

1> Pearson Correlation Coefficient(r)>

🦋 trend line에 data가 밀집해 있는 정도에 따라 크게 weak, moderate, strong relationship으로 세 가지 관계로 분류할 수 있다

🦋 이 때, weaker relationship일 수록 correlation value가 감소, stronger일수록 correlation value가 증가한다

🦋 x value에 매칭되는 trend line의 y값을 예측할 때 stronger relationship일수록 예측되는 y값 범위가 매우 좁다

☆ 이 때, ~~data의 갯수나 line의 slope~~은 correlation의 세기에 영향을 미치지 않음 (~~데이터의 평균, 분산의 크기~~에도 영향 X)

🦋 * 새로운 data가 주어졌을 때 해당 paired value를 line으로 예측하는 confidence

→ ① p-value값이 작을수록 주어진 data point에 line으로 예측하는 설명력이 더 강해진다

→ ②더 많은 data point를 가질수록 설명력이 더 좋아진다

🦋 여기서 data point에 좌우되는 confidence가 두 변수간의 relationship 관련 큰 영향을 미치는 지표가 되지는 않는다.

→ data point가 매우 많아 confidence가 높게 측정이 되어도 correlation은 영향을 받지 않기 때문에

→ 우리가 원하는 결정적인 지표는 correlation!

- x와 y의 두 가지 변수만 있다 가정하고 gene 특정 품목에 대한 covariance 계산식임(하단) -

🦋 x와 y 각각의 variance에 루트를 씌운 결과를 서로 곱해서 분모로 나눠준 결과가 correlation value가 된다

🦋 해석1> trend line에 data가 밀집되어 있을수록 covariance값과 각 vector의 variance 루트값의 곱이 거의 같게 된다

🦋 해석2> trend line으로부터 data가 점점 멀어질수록 당연히 covariance값도 떨어지기에 correlation값도 감소함 - 0으로 수렴

vs. R^2(coefficient of determination)?

→ 즉 pearson correlation coefficient는 relationship 변수와의 관계의 정도 strength를 보여준다

Q. 그러면 R-Squared와 Pearson Correlation과의 차이점?

① 일단 Pearson 계수는 scale에 영향을 받지 않는다. 오로지 숫자간의 상대적인 차이로 인해서 결정되는 계수이다. 따라서 위에서 언급한 것처럼 data 수가 적어서 confidence에서 낮은 성능을 보임에도 Pearson 계수는 -1이나 1에 가까운 수치를 보일 수 있다는 점이다

② coefficient of determination은, 즉 R^2는 얼마나 예측된 value가 trend line 상에서의 y variance를 얼마나 잘 설명할 수 있는 지를 보여주는 지표이다.
→ 제곱이 되었기에 1에 가까울수록 model에 대해 높은 설명력을 보여준다고 할 수 있다

→ scale에 영향을 받음

★ 정리하면 Pearson 계수는 예측용이 아닌, 주어진 data에서 pattern이나 relationship을 찾아낼 때 쓰이는 용도이며

★ R^2는 model에서 주어진 prediction과 실제 주어진 observation의 variance를 얼마나 잘 설명할 수 있는 지 쓰이는 용도이다
(또 scale에 영향을 받기에 confidence면에서도 신뢰가 가는 지표이다)

+ 추가로 Pearson Corrleation Coefficient를 제곱한다고 해서 R-Sqaured가 항상 되는 건 아니다!
(매우 특정한 선형모델 SLR을 제외하고는)

→ 위 세 그래프에서 보듯이 예측 라인 model과 많이 벗어나 있음에도 (중간과 오른쪽) 서로 일렬로 나열되어 있는 data 덕분에 Pearson값은 1에 가깝게 나온다. 따라서 주어진 모델에 맞게 잘 예측했는 지 확인할 방법은 R^2를 이용

* R^2 자세한 내용은 아래 포스팅 참조

All About Evaluation Metrics(1/2) → MSE, MAE, RMSE, R^2

** ML 모델의 성능을 최종적으로 평가할 때 다양한 evaluation metrics를 사용할 수 있다고 했음! ** (supervised learning - regression problem에서 많이 쓰이는 평가지표들) - 과정 (5) - 😙 그러면 차근차..

sh-avid-learner.tistory.com

2>Spearman Rank-Order Correlation Coefficient(ρ; rs)>

🤝 두 개의 rank 순위를 갖고 있는 ordinal variable 사이(continuous & discrete 모두 가능)의 관계 relationship이 얼마나 weak하거나 strong한 지 보여주는 척도!

🤝 Pearson과 달리 분산과 같은 수치를 numeric data를 통해 계산할 수 있는 형태가 아닌, data가 categorial할 때 쓰이는 수치이다

🤝 비모수적 방법

(모수적 & 비모수적 차이 하단 포스팅 참조!)

Parametric vs. Non-Parametric Tests

👩‍🔬 Parametric(모수적) & Non-Parametric(비모수적) test 종류 구별은 매우 중요하다! 👩‍🔬 간략히 말하자면 모수적 방법은 data의 분포를 가정 (주로 정규성 - normal distribution)한 채 hypothetical tes..

sh-avid-learner.tistory.com

🤝'a nonparametric measure of rank correlation (statistical dependence between the rankings of two variables). It assesses how well the relationship between two variables can be described using a monotonic function.'

🤝 Pearson과 다르게 linear function을 기준으로 평가했지만, Spearman은 monotonic function을 기준으로 평가
(pearson과 달리 선형적인 상관관계가 아닌, 한 변수가 증가할 때 다른 변수가 증가/감소하는 지에 대한 정성적 관계를 알고자 하는 게 spearman)

🤝 The Spearman correlation btw 2 variables = The Pearson correlation btw the rank values of those 2 variables

🤝 위 그래프에서 보시다싶이 monotnoic function을 따르면 spearman 계수는 1에 따른다. 위 오른쪽 그래프와 같이 outlier가 존재할 경우 pearson보다 spearman이 outlier에 덜 영향을 받아(less sensitive) 계수값이 더 높음을 알 수 있음

계산>

🤝 위에서 얘기했듯이 spearman 계수는 ordinal한 variable의 순위를 매겨서 해당 순위 R(X), R(Y)의 pearson 계수로 산출한 것을 말한다

🤝 For a sample of size n, the n raw scores $X_i, Y_i$ are converted to ranks $R(X_i), R(Y_i)$ and $r_s$ is computed as

- pearson 공식에 Rank를 그대로 넣으면 됨 -

🤝 (특수) 만약 모든 n개의 rank가 각기 다른 정수라면, 아래와 같은 공식으로 $r_s$를 구할 수 있다

- $d_i$는 $R(X_i) - R(Y_i)$로 각 관측치의 차이 / n은 관측치의 개수 -

interpretations & 정리>

🤝 spearman 계수가 거의 1에 가깝다는 것은 쌍으로 이룬 $X_i, Y_i$의 차이가 항상 거의 똑같은 트렌드를 보인다는 걸 뜻한다

🤝 즉, 1에 가까우면 두 ordinal 변수가 서로 관계가 있음을 알 수 있고, 0에 가까우면 거의 관계가 없음을, -1에 가까우면 서로 negative monotnoic function의 형태로, 서로 각각 (rank가) 증가할 때 감소하고, 또는 감소할 때 증가하는 관계를 보인다는 뜻이다.

👉 spearman's correlation coefficient를 산출하기 위해서는..!

① 주어진 sample data는 모두 random

② monotonic 관계가 존재한다고 가정하고 (Ha) assumption test 진행

③ variable들은 적어도 ordinal하거나 continuous numerical

④ data는 서로 쌍을 가진 sample들이어야 함 - 그래야 각 쌍끼리 monotonic function을 따르는 지 볼 수 있음

⑤ data끼리 서로 independent해야 함

🤝 ▒ 여기서! pearson과 다르게 비모수적인 방법이므로 data는 ~~굳이 정규분포~~에서 가져오지 않아도 된다 ▒

w/code

🧠 scipy.stats.spearmanr docu 🧠

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.spearmanr.html

scipy.stats.spearmanr(a, b=None, axis=0, nan_policy='propagate', alternative='two-sided')

'Calculate a Spearman correlation coefficient with associated p-value. The Spearman rank-order correlation coefficient is a nonparametric measure of the monotonicity of the relationship between two datasets. Unlike the Pearson correlation, the Spearman correlation does not assume that both datasets are normally distributed. Like other correlation coefficients, this one varies between -1 and +1 with 0 implying no correlation. Correlations of -1 or +1 imply an exact monotonic relationship. Positive correlations imply that as x increases, so does y. Negative correlations imply that as x increases, y decreases. The p-value roughly indicates the probability of an uncorrelated system producing datasets that have a Spearman correlation at least as extreme as the one computed from these datasets. The p-values are not entirely reliable but are probably reasonable for datasets larger than 500 or so.'

👩‍🦰 returns 1>correlation 계수 & 2>p-value

≫ H0 귀무가설은 두 ordinal variable간에 monotonic relation이 존재하지 않는다는 것으로, p-value가 일반적으로 0.05이하이면 귀무가설 기각! - 즉 Ha 대안가설로 세운 '두 ordinal variable간에 관계가 존재한다'로 통계적 검정을 내릴 수 있다!

≫ 예시

Q. 아래는 1반 총 35명 학생 각각의 영어와 수학 모의고사 등급이다. 학생들의 영어등급과 수학등급이 서로 유의미한 관계성을 보이는 지 spearman correlation coefficients를 산출해 내 통계적 검정을 내리자. (단, 각 학생별 등급은 서로 independent하다)

- (하단) 학생별 등급표 일부 -

import pandas as pd
English = [1, 5, 2, 3, 3, 5, 6, 6, 5, 4, 2, 4, 5, 3, 4, 5, 2, 3, 5, 4, 3, 4, 6, 5, 8, 6, 4, 7, 5, 4, 3, 4, 1, 3, 4]
Math = [2, 5, 6, 4, 3, 5, 4, 2, 4, 5, 3, 3, 5, 6, 4, 5, 6, 5, 6, 5, 7, 6, 5, 4, 5, 3, 5, 4, 2, 1, 1, 4, 3, 2, 2]
grade = pd.DataFrame({'English':English, 'Math': Math})

* 검정 결과>

stats.spearmanr(grade['English'].tolist(), grade['Math'].tolist())
#SpearmanrResult(correlation=0.03519639020891649, pvalue=0.8409139955046013)

* 결론> 역시 영어등급과 수학 등급을 랜덤으로 1~9사이의 숫자를 아무렇게 입력하였더니 spearman값이 0에 가까운 0.03으로 monotonic한 function relationship이 존재하지 않음을 통계적으로 검정할 수 있었다! (pvalue는 0.05보다 훨씬 큰 값으로 귀무가설 기각 안됨)

++ 추가적인 correlation 종류 - kendall-rank & point-biserial correlation 추후 포스팅 참조! ++

* 출처1) https://programmathically.com/covariance-and-correlation/

* 출처2) covariance matrix https://www.youtube.com/watch?v=WBlnwvjfMtQ

* 출처3) r^2 vs. Pearson 계수 https://towardsdatascience.com/r%C2%B2-or-r%C2%B2-when-to-use-what-4968eee68ed3

* 출처4) spearman 설명 https://en.wikipedia.org/wiki/Spearman%27s_rank_correlation_coefficient

* 출처5) spearman youtube https://www.youtube.com/watch?v=JwNwbu-g2m0

* 출처6) pearson, spearman, r-squared 비교, 설명 https://m.blog.naver.com/istech7/50153288534

* 출처) 갓 STATQUEST - correlation explained! 👩🏿‍🚀 https://www.youtube.com/watch?v=xZ_z8KWkhXE

* 출처) 갓 STATQUEST - covariance explained! 🌻 https://www.youtube.com/watch?v=qtaqvPAeEJY&t=435s

저작자표시 비영리 변경금지

'Math & Linear Algebra > Concepts' 카테고리의 다른 글

Odds Ratio & log(Odds Ratio) (0)	2022.07.11
eigenvalue & eigenvector (0)	2022.05.14
linear & non-linear → span, basis, rank, projection (0)	2022.05.13
Cramer's Rule (+exercise) (0)	2022.05.09
Basic Derivative - 미분 기초 (0)	2022.04.18