Machine Learning/Fundamentals

Adjusted R-Squared vs. R-Squared

metamong 2022. 6. 19.

👨🏾‍💻 예전 포스팅에서 R-Squared에 대해 다룬 적이 있었는데, 이의 한계를 보완한 adjusted r-squared와 같이 비교하면서 심층적으로 알아보도록 하자.

All About Evaluation Metrics(1/2) → MSE, MAE, RMSE, R^2

** ML 모델의 성능을 최종적으로 평가할 때 다양한 evaluation metrics를 사용할 수 있다고 했음! ** (supervised learning - regression problem에서 많이 쓰이는 평가지표들) - 과정 (5) - 😙 그러면 차근차..

sh-avid-learner.tistory.com

1> R-squared (coefficient of determination)

→ r-squared는 ~~모델이 얼마나 예측력이 좋은 지, 몇 개의 point를 잘 예측할 수 있는 지를 설명하는 지표~~가 아니다.

→ = 'the proportion of variance of y that has been explained by the independent variables in the model'

→ 즉, independent variable의 변화를 가지고 y의 변화를 얼만큼 설명할 수 있는 지 설명력을 나타내는 지표이다!

→ 위 그림의 식에서 다뤘듯이 R-squared 값은 SSR/SST이다.

≫ 위 그림에서 실제값 빨간 점과 검은색 선(points' mean) 사이의 거리 제곱합(초록선)이 SST - 즉, 의미상으로 points의 y 자체 variance

≫ 그리고 예측값 파란선(model)과 검은색 선(points' mean) 사이의 거리 제곱합(빨간선)이 SSR - 즉, 의미상으로 모델과 실제 y 평균과의 variance

→ 실제값 빨간 점 & 예측값 파란선이 각각 기준이 되는 (point 별) 검은 선까지의 거리 제곱합이 서로 같다면 실제값과 예측값은 같으므로 y자체의 variance인 SST와 SSR은 동일, 즉 SSR/SST = 1로 R-squared 값은 1이 된다.

→ R-squared값이 1이라는 건, 예측값 파란선 model이 실제값(평균)을 기준으로 한 variance가 실제값의 variance와 같다는 뜻으로, model이 실제값의 variance를 완벽히 설명해주는 100%의 설명력을 가진다고 할 수 있다.

※ 즉 R-squared값은 x들의 변화를 가지고 y의 변화를 얼마나 잘 설명할 수 있는가이다. 예를 들어 R-squared 값이 80%라면, x변수의 증가로 인해 y변수의 증가에 영향을 미친 정도는 80%라고 판단을 내릴 수 있다.

※ 한계점 - 만약 dependent variable에 영향을 거의 미치지 않는 변수이더라도 dependent variable을 계속해서 추가할수록 R-squared 지표 특성상 제곱합이기 때문에 단 조금이라도 R-squared 지표값이 무조건 증가하게 된다. model과 관련없는 요인을 넣었는데도 이전보다 R-squared값이 상승했다는 건 매우 심각한 한계..

2> adjusted r-squared

👨🏾‍💻 따라서 우리는 adjusted r-squared 지표를 사용해 r-squared의 한계를 보완했다.

※ 새로운 term이 추가될 때 우리는 아래와 같이 두 가지 case를 고려할 수 있다.

(여기서 term이 추가된다는 것은 ~~polynomial regression model의 term 추가~~를 말하는 게 아니다. 다양한 independent variable의 개수를 말한다.)

(하단 게시글을 보면 알겠지만, polynomial regression model에서 term 개수 증가한다고 r-squared가 무조건적으로 증가하는 건 아님을 확인 가능하다.)

Polynomial Regression Model

* Linear Regression Model - 즉, y 종속변수와 x 독립변수(1개 또는 2개 이상)들 간의 관계가 선형인 경우를 뜻한다. 즉, x 독립변수의 증감 변화에 따라 y도 이에 상응하여 증감이 일정한 수치의 폭으로

sh-avid-learner.tistory.com

→ ① 과적합이 예상되거나 예측력을 오히려 감소시키는 predictor 지표가 기존 model에 첨가될 경우 자체 penalty를 부과해 adjusted r^2값 감소

→ ② 그 반대로 오히려 model의 성능을 높이는 predictor 지표가 첨가되면 adjusted r^2값 증가

$R^2 = 1 - [\cfrac{(1-R^2)(n-1)}{n-k-1}]$

(k: independent variable 개수 = term 항 개수 / n: point 개수)

→ 일반적으로 adjusted r-squared값은 항상 양수인 경우가 대부분이며, 대체적으로 r-squared값보다 수치가 적은값으로 측정된다.

→ adjusted 지표를 더 많이 사용하며, adjusted 지표는 다양한 independent variable의 조합을 고려하고 model에 들어갈 최적의 independent variable 개수를 알아낼 수 있기 때문이다.

→ adjusted $R^2$ 식 설명: 위 ①의 case라면 기존 R^2보다 k값이 증가하는데 더 큰 폭을 차지하기에 결정적으로 adjusted값은 감소 / ②의 case라면 기존 R^2 증가폭이 k값 증가폭을 넘기에(outweigh) 결정적으로 adjusted값은 증가

실습 w/python>

1> dataset 준비 + import + 전처리

import numpy as np
import pandas as pd
import matplotlib
import seaborn as sns
import matplotlib.pyplot as pyplot
from matplotlib import pyplot as plt

from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

#read in data
data = pd.read_csv("./data/nba_logreg.csv")

data.dropna(inplace=True) #결측치 있는 행 삭제
data.drop(columns=['Name'],inplace=True) #이름 column 삭제

2> target vector 추출 + feature vector는 다섯개만 추출

#y target vector 따로 빼놓기
y = data['TARGET_5Yrs'].copy()
data.drop(columns=['TARGET_5Yrs'],inplace=True)

data_cut = data.iloc[:,:5]

3> adjusted r-squared와 r-squared의 차이를 알아보기 위해 dataframe에 랜덤하게 생성된 두 column을 갖다붙인다.

np.random.seed(11)
data_cut['random1'] = np.random.randn(len(data_cut))
data_cut['random2'] = np.random.randint(len(data_cut))

4> 직접 dataframe 왼쪽 column부터 누적으로 independent variables 목록 추가 - r-squared와 adjusted r-squared 연산하기

r_squared = []
adj_r_squared = []
for i in range(1, data_cut.shape[1]+1):
    
    data_new = data_cut.iloc[:,:i].copy()
    
    linear_regression = LinearRegression()
    
    linear_regression.fit(data_new, y)
    
    prediction = linear_regression.predict(data_new)
    
    r2 = r2_score(y_true=y, y_pred=prediction)
    r_squared.append(r2)
    
    adj_r2 = 1 - ((1 - r2) * (len(data) - 1) / (len(data) - i - 1))
    adj_r_squared.append(adj_r2)

5> 결과 시각화

result = pd.DataFrame({'r^2':r_squared, 'adjusted_r^2':adj_r_squared})

fig = plt.figure(figsize=(7,6))
sns.set_style('ticks')
sns.set_context("poster", font_scale = .8, rc={"grid.linewidth": 0.2})
s = sns.lineplot(data=result);
plt.axvline(4.0, color='red', linewidth=4)
s.set_xticks(range(8))
s.set_xticklabels(['1', '2','3','4','5','6','7','8']);

6> 결과 분석

▶ 시각화 결과 adjusted값은 r^2보다 언제나 값이 작게 측정됨을 알 수 있다.

▶ independent variable 개수가 6이 되는 때부터 실제로 model과 관련없는 랜덤한 data를 집어넣은 시점인데, 실제로 adjusted 수치는 해당 data가 model 성능 향상에 의미가 없다 판단하여 수치값이 감소함을 육안으로 확인할 수 있다.

▶ 하지만, 반대로 아무리 무의미한 variable을 집어넣었어도 r^2값은 계속 증가하는 한계를 보여주고 있다.

▶ 따라서 우리가 어떤 data인지 모른다는 가정 하, 단순히 adjusted r^2 수치만을 통해서 우리는 random하게 넣은 두 variable을 model 구축에 제외시킬 수 있는 장점이 존재한다. (위 그래프의 경우 4번째 variable을 넣었을 때 오히려 adjusted값이 감소했는데, 이를 통해 4번째 variable만 모델 구축에 제외시킬 수 있다.)

* 출처1) 비교 https://www.investopedia.com/ask/answers/012615/whats-difference-between-rsquared-and-adjusted-rsquared.asp

* 출처2) adjusted r-squared 개념 https://youtu.be/_I7sKr77Ci8

* 출처3) r-squared 개념 https://www.youtube.com/watch?v=IMjrEeeDB-Y

* 출처4) python 실습 https://www.statology.org/adjusted-r-squared-in-python/

* 출처5) 시각화 code 일부 참조 https://towardsdatascience.com/demystifying-r-squared-and-adjusted-r-squared-52903c006a60

* 출처6) r-squard 개념 <statquest> https://www.youtube.com/watch?v=2AQKmw14mHM

저작자표시 비영리 변경금지 (새창열림)

'Machine Learning > Fundamentals' 카테고리의 다른 글

All About Evaluation Metrics (2/2) → MAPE, MPE (0)	2022.06.11
Unsupervised Learning (0)	2022.06.03
PCA(w/code) (0)	2022.05.31
PCA(concepts) (0)	2022.05.30
Feature Selection vs. Feature Extraction (0)	2022.05.18

Adjusted R-Squared vs. R-Squared

1> R-squared (coefficient of determination)

2> adjusted r-squared

실습 w/python>

'Machine Learning > Fundamentals' 카테고리의 다른 글

댓글

티스토리툴바