본문 바로가기
Statistics

[Statistics][ANOVA] 일원 분류 분산분석(One -way ANOVA)

by LydiaRyu 2021. 9. 30.
반응형
  • 기본 개념

모평균이 독립적인 셋 이상의 집단 간에 차이가 있는지 검정하는 분석이다.

 

가정) 

1. 각 집단별로 정규분포를 따라야 한다. (정규성)

2. 집단의 분산은 서로 동일해야 한다. (등분산성)

3. 표본의 수가 충분히 커야 한다. 

 

  • 집단 간 변동 (Between group variation)

전체 변동 중 모형에 의해 설명되는 변동이다. 아래와 같이 집단 내에서 평균으로부터 퍼져 있는 정도는 비교적 작지만, 세 집단의 평균이 전체 평균으로부터 퍼져 있는 정도는 크다. 따라서, 집단 간의 변동이 크다고 볼 수 있다. 

그림1. 집단간 변동

 

  • 집단내 변동 (Within group variation)

전체 변동 중 모형에 의해 설명되지 않는 변동이다. 각 집단이 집단 내에서 각각의 평균으로부터 어느 정도 떨어져 있는지를 나타내는 값이다. 아래와 같이 전체 집단 간의 평균의 차이는 작지만 집단내에서 값들의 퍼진 정도가 큰 것을 확인할 수 있다. 

그림2. 집단내 변동

 

  • 총 변동 (Total variation)

총변동은 개별 값들이 전체 평균으로부터 어느 정도 떨어져 있는지를 나타내는 값으로 집단 간 변동 + 집단내 변동 값으로 나타낼 수 있다. 

 

- 집단 간의 변동이 크고, 집단내의 변동이 작을수록 집단 사이의 평균 차이가 존재할 것이다. (그림 1)

- 집단 간의 변동이 작고, 집단내의 변동이 클수록 집단 사이의 평균은 차이가 없을 것이다. (그림 2)

 

  • 검정 과정

H0(귀무가설): 모든 집단의 모평균은 동일하다.

H1(대립 가설): 적어도 한 집단의 모평균은 다른 집단과 다르다. (not H0)

 

검정 통계량(F) = 집단 간 평균 변동 / 집단내 평균 변동 

 

→ 검정 통계량이 클 때 H0을 기각하고 유의한 결과를 낸다. 그렇기 때문에 집단 간의 평균 변동이 크고,  집단내의 평균 변동이 작을수록 유의하고 적어도 한 집단의 모평균이 다르다는 결과가 나온다. 

 

집단 간 평균 변동 = 집단 간 변동 / (집단 수 - 1)

집단내 평균 변동 = 집단내 변동 / (전체 개체 수 - 집단 수)

 

  • 통계 모형

 

 

  •  ANOVA Table
변동 원인 자유도 제곱합 평균제곱 F 값  P-Value
집단간(처리) t - 1 SSB MSB = SSB/(t - 1) F = MSB / MSW   
집단내(오차) t(n - 1) SSW MSW= SSW/t(n-1)
전체 nt - 1 SST  

 

  • 예시
ID A B C
1 16 10 12
2 12 5 8
3 14 11 6
4 6 6 2
MEAN 12 8 7

 

A, B, C 세 집단이 있다고 가정하고 각각의 관측 값과 각 집단의 평균값을 표에 작성하였다. 세 집단의 평균이 차이가 없다는 것을 귀무가설로 가정하고 이를 검정해보자.

 

  • 모형 계산 식

 

   t (집단 수) = 3,   n (각 집단의 관측 값) = 4,  전체 평균 = 9

 

  • ANOVA Table
변동 원인 자유도 제곱합 평균제곱 F 값  P-Value
집단간(처리) 2 56 28 F = 28 / 14.89
  = 1.88
0.2079
집단내(오차) 9 134 14.89
전체 11 190  

 

# F 분포에서 P-Value를 구하는 코드 

1 - pf(1.88, 2, 9) # pf(F 값, d.f.1, d.f.2)

 

 

결론적으로, F 값이 1.88으로 작고 p-value가 0.2079로 유의 수준 0.05보다 크기 때문에 귀무가설을 기각할 수 없다. 

따라서, 세 집단의 평균에 차이가 없다고 볼 수 있다. 

 

 

 

728x90

댓글