본문 바로가기
Statistics

[Statistics][Regression] 비선형 회귀모형(로지스틱 회귀모형; Logistic Regression)

by LydiaRyu 2021. 10. 14.
반응형
  • 선형 회귀 모형

종속변수(Y)가 독립변수(X)들에 의해 어떻게 설명되는지를 나타낸 모형으로 다음과 같은 식의 형태를 갖는다.

→ 이때, 선형 회귀에서 종속변수(Y)는 정규분포를 따르고, 연속형이어야 한다. 

 


 

  • 일반화 선형 모형(Generalized Linear Model)

종속변수가 연속형이 아니거나, 정규 분포를 따르지 않을 때 사용할 수 있는 모형을 일반화 선형 모형(GLM)이라고 한다. 

 

종속변수가 이항일 때: 로지스틱 회귀모형 (Losgistic regression model)

종속변수가 다항일 때(명목형): 기준 범주 로짓 모형(Baseline - category logit model) 

종속변수가 다항일 때(순서형): 누적 로짓 모형(Cumulative logit model)

 


 

  • 로지스틱 회귀모형(Logistic Regression)
  •  정의

종속변수가 이항(binary) 일 경우에 사용하는 모형이다. 예를 들어, default(0) / non-default(1)과 같이 종속 변수가 두 개로 나누어지는 경우에 사용한다. 

 

로지스틱 Y에 대한 일반화 선형 모형의 식은 왼쪽과 같으며, E(Y)는 성공했을 때 확률(P(Y = 1)) 과 같은 값으로 계산한다.

왼쪽: 선형회귀 모형 그래프 / 오른쪽: 로지스틱 회귀모형 그래프

 

→  종속변수가 이항일 경우, 선형 회귀 모형을 사용하면 왼쪽과 같이 종속변수에 의해 치우쳐서 반영이 될 수 있다. 따라서, 로지스틱 회귀모형을 사용하여 변수들이 잘 적합될 수 있는 모형을 생성한다.

 

  • 단순 로지스틱 회귀모형

 단순 로지스틱 회귀모형의 정의 식과 풀이는 다음과 같다. 1일 확률(성공확률) / 0일 확률(실패 확률)의 로그를 취한 값으로 정의되며, 회귀식을 이용하여 성공확률을 구할 수 있다.

 

  • 오즈비(Odds)

오즈비는 성공 확률 / 실패 확률을 나타내는 값으로 다음과 같은 식으로 나타낼 수 있다. 

 

→ X가 1 단위 증가할 때, 오즈는 exp(B1) 배씩 곱해져 증가한다. 만약 B1이 0이라면, exp(B1)은 1이기 때문에 X의 변화에 관계없이 일정한 값을 갖는다.

 

  • 다중 로지스틱 회귀모형

반응 변수는 동일하게 이항 값을 갖고, 설명변수가 2개 이상일 경우 다중 로지스틱 회귀모형이라고 정의한다. 단순 로지스틱 회귀모형과 동일한 형태의 식을 가지며, 설명변수의 개수만 많아진 것을 확인할 수 있다. 

 

 

  • 로지스틱 회귀모형 추정

로지스틱 회귀모형은 정확한 값으로 추정할 수 없기 때문에 알고리즘을 이용하여 가능도(likelihood)를 최대화하는 근사치로 추정한다. 

 

 

(1 - a) X 100% 신뢰 구간에서 모수와 오즈비에 대한 각각의 신뢰 구간은 다음과 같다.

 

  • 로지스틱 회귀모형 검정

 

p -value 가 유의 수준보다 작으면 귀무가설(H0)을 기각한다. 귀무가설은 Bi = 0으로 값들 간의 차이가 적게 나는 것을 의미한다. 이때, 유의 수준은 보통 0.05 혹은 0.01으로 사용한다. 

 

  • 로지스틱 회귀모형 예측

민감도는 성공일 때 성공으로 예측하는 확률이고, 특이도는 실패일 때 실패로 예측하는 확률이다. 민감도와 특이도를 이용하여 ROC 곡선을 그릴 수 있으며, 이를 통해 예측력을 판단할 수 있다. 

 

ROC 곡선

 

ROC 곡선은 (1 - 특이도) 값이 작을수록, 민감도 값이 클수록 예측력이 높다는 의미를 갖는다. 대각선의 값(45도)은 0.5로 대각선 보다 위에 있고 직각에 가까울수록 예측력이 높다.

 

또한, 곡선의 아래 면적은 AUC(Area Under the Curve)로 면적이 넓을수록 예측력이 높다고 볼 수 있다.

728x90

댓글