SeaForest

[Data Analysis] Linear Models, 선형 회귀 모델 본문

Data analysis

[Data Analysis] Linear Models, 선형 회귀 모델

seaforest 2022. 3. 14. 23:57

1. Linear Models(=선형 회귀)란?

- 종속변수 y와 독립변수 x와의 선형 상관관계를 모델링하는 회귀분석 기법

- 단순선형회귀 : 한개의 독립변수에 기반한 경우

- 다중선형회귀 : 둘 이상의 독립변수에 기반한 경우

 

2. OLS(=최소자승법,Ordinary Linear Squares)란?

- 오차를 최소화 시키는 방법으로 회귀 계수를 추정하는 기법

3. R-squared (=결정계수)

- 독립변수가 종속변수를 얼마만큼 설명해 주는지를 가리키는 지표

- 결정계수가 높을수록 독립변수가 종속변수를 많이 설명한다는 의미

- 독립변수의 수가 증가하면 상승함

>> 그래서 종속변수를 잘 설명하지 못하는 독립변수가 추가되면, 독립변수의 수가 증가해서 결정계수도 같이 증가하기 때문에 결정계수 만으로는 회귀모델의 유용성을 판단하기에는 문제가 있음

 

4. Overfitting (=과적합)

- 변수를 너무 많이 추가하여 정확도가 떨어지거나 부적절한 회귀 모형을 만드는 경우

- 너무 복잡한 모델을 생성하는 바람에 학습 데이터에는 잘 맞지만 새로운 데이터에는 잘 맞지 않는 현상

- overfitting을 피하기 위해서는 계수에 대한 표준 오차를 확인해야함

- 작은 표준오차는 모형을 추정하기에 충분한 데이터가 있음을 의미함