본문 바로가기
728x90

Statistics5

[Statistics][Regression] 비선형 회귀모형(로지스틱 회귀모형; Logistic Regression) 선형 회귀 모형 종속변수(Y)가 독립변수(X)들에 의해 어떻게 설명되는지를 나타낸 모형으로 다음과 같은 식의 형태를 갖는다. → 이때, 선형 회귀에서 종속변수(Y)는 정규분포를 따르고, 연속형이어야 한다. 일반화 선형 모형(Generalized Linear Model) 종속변수가 연속형이 아니거나, 정규 분포를 따르지 않을 때 사용할 수 있는 모형을 일반화 선형 모형(GLM)이라고 한다. 종속변수가 이항일 때: 로지스틱 회귀모형 (Losgistic regression model) 종속변수가 다항일 때(명목형): 기준 범주 로짓 모형(Baseline - category logit model) 종속변수가 다항일 때(순서형): 누적 로짓 모형(Cumulative logit model) 로지스틱 회귀모형(Log.. 2021. 10. 14.
[Statistics][ANOVA] 일원 분류 분산분석(One -way ANOVA) 기본 개념 모평균이 독립적인 셋 이상의 집단 간에 차이가 있는지 검정하는 분석이다. 가정) 1. 각 집단별로 정규분포를 따라야 한다. (정규성) 2. 집단의 분산은 서로 동일해야 한다. (등분산성) 3. 표본의 수가 충분히 커야 한다. 집단 간 변동 (Between group variation) 전체 변동 중 모형에 의해 설명되는 변동이다. 아래와 같이 집단 내에서 평균으로부터 퍼져 있는 정도는 비교적 작지만, 세 집단의 평균이 전체 평균으로부터 퍼져 있는 정도는 크다. 따라서, 집단 간의 변동이 크다고 볼 수 있다. 집단내 변동 (Within group variation) 전체 변동 중 모형에 의해 설명되지 않는 변동이다. 각 집단이 집단 내에서 각각의 평균으로부터 어느 정도 떨어져 있는지를 나타내는 .. 2021. 9. 30.
[Statistics][ANOVA] 분산분석(ANOVA) 기본개념/ 독립 이표본 t-검정(Independent two-sample t-test) 설명변수(X)와 반응 변수(Y)에 따라 통계분석을 하기 위해 사용하는 방법을 다르게 적용한다. 통계분석 설명변수(X) 반응변수(Y) 회귀분석 연속형 연속형 분산분석 이산형 연속형 로지스틱 회귀분석 연속형 이산형 분할표 이산형 이산형 분산분석의 기본 개념 분산분석(ANOVA)은 세 개 이상 집단들의 평균들 간에 차이가 있는지를 검증하는 통계분석 기법이다. 각 집단들의 표본으로부터 표본 평균값들이 얼마나 차이가 나는지 산출한다. 이때, 표본 평균의 값들이 비슷하다면 모집단의 평균들이 같다고 볼 수 있고, 차이가 난다면 모집단의 평균들에 차이가 있다고 결론을 낸다. 예를 들어, 연령대별(20대, 30대, 40대,...) 총소득금액 차이를 알아볼 때 분산분석을 사용할 수 있다. - 분산분석의 가정 1) 집단들은.. 2021. 9. 9.
[Statistics][Time Series Analysis] 2. 시계열 회귀분석 시계열 데이터는 일반적인 회귀 분석이 어렵다. → 회귀 분석은 기본적으로 서로 독립이라는 가정을 갖는데, 시계열 데이터는 이러한 자기 상관 기본 가정을 위배하기 때문이다. 추세를 이용한 회귀 분석 시계열 Zt는 추세만을 이용하여 아래와 같이 표현할 수 있다. Zt = TRt + Et Zt : 시점 t에서의 관측값 TRt : 시점 t에서의 추세 Et : 시점 t에서의 오차항 그림 (1)과 같이 TRt = B0 로 상수항을 가지면 추세가 없는 경우에 해당한다. 그럼 (2), (3)과 같이 TRt = B0 + B1t (B1 >0 or B1 2021. 7. 12.
[Statistics][Time Series Analysis] 1. 시계열 분석 기본 개념 시계열 데이터(Time series data) 특정한 개체의 자료를 시간이 지남에 따라 순차적으로 얻게 되는 데이터이다. 횡단면 데이터(Cross sectional data) 엑셀 자료와 같이 일반적으로 볼 수 있는 데이터 셋이다. 시계열 분석의 목적 기술(Description): 과거 자료를 이용하여 시도표를 작성하고, 시계열의 구성 요소를 확인하는 것으로 추세, 순환, 계절성, 특이점을 파악할 수 있다. * 시도표(Time Plot) : 시계열 자료를 그림으로 그리는 것으로 시계열의 특성을 파악할 수 있다. 예측 결과를 시도표로 작성할 시에는 신뢰 구간을 함께 표시한다. 2. 예측(Forecasting): 모형화를 통해 미래 시점의 값을 예측한다. 3. 설명(Explanation): 구축된 시계열 모.. 2021. 7. 12.
반응형