본문 바로가기
728x90

분류 전체보기74

[Statistics][ANOVA] 일원 분류 분산분석(One -way ANOVA) 기본 개념 모평균이 독립적인 셋 이상의 집단 간에 차이가 있는지 검정하는 분석이다. 가정) 1. 각 집단별로 정규분포를 따라야 한다. (정규성) 2. 집단의 분산은 서로 동일해야 한다. (등분산성) 3. 표본의 수가 충분히 커야 한다. 집단 간 변동 (Between group variation) 전체 변동 중 모형에 의해 설명되는 변동이다. 아래와 같이 집단 내에서 평균으로부터 퍼져 있는 정도는 비교적 작지만, 세 집단의 평균이 전체 평균으로부터 퍼져 있는 정도는 크다. 따라서, 집단 간의 변동이 크다고 볼 수 있다. 집단내 변동 (Within group variation) 전체 변동 중 모형에 의해 설명되지 않는 변동이다. 각 집단이 집단 내에서 각각의 평균으로부터 어느 정도 떨어져 있는지를 나타내는 .. 2021. 9. 30.
[Statistics][ANOVA] 분산분석(ANOVA) 기본개념/ 독립 이표본 t-검정(Independent two-sample t-test) 설명변수(X)와 반응 변수(Y)에 따라 통계분석을 하기 위해 사용하는 방법을 다르게 적용한다. 통계분석 설명변수(X) 반응변수(Y) 회귀분석 연속형 연속형 분산분석 이산형 연속형 로지스틱 회귀분석 연속형 이산형 분할표 이산형 이산형 분산분석의 기본 개념 분산분석(ANOVA)은 세 개 이상 집단들의 평균들 간에 차이가 있는지를 검증하는 통계분석 기법이다. 각 집단들의 표본으로부터 표본 평균값들이 얼마나 차이가 나는지 산출한다. 이때, 표본 평균의 값들이 비슷하다면 모집단의 평균들이 같다고 볼 수 있고, 차이가 난다면 모집단의 평균들에 차이가 있다고 결론을 낸다. 예를 들어, 연령대별(20대, 30대, 40대,...) 총소득금액 차이를 알아볼 때 분산분석을 사용할 수 있다. - 분산분석의 가정 1) 집단들은.. 2021. 9. 9.
[MySQL][프로그래머스]String, Date(DATETIME에서 DATE로 형 변환) 문제 설명 ANIMAL_INS 테이블은 동물 보호소에 들어온 동물의 정보를 담은 테이블입니다. ANIMAL_INS 테이블 구조는 다음과 같으며, ANIMAL_ID, ANIMAL_TYPE, DATETIME, INTAKE_CONDITION, NAME, SEX_UPON_INTAKE는 각각 동물의 아이디, 생물 종, 보호 시작일, 보호 시작 시 상태, 이름, 성별 및 중성화 여부를 나타냅니다. NAMETYPENULLABLE ANIMAL_ID VARCHAR(N) FALSE ANIMAL_TYPE VARCHAR(N) FALSE DATETIME DATETIME FALSE INTAKE_CONDITION VARCHAR(N) FALSE NAME VARCHAR(N) TRUE SEX_UPON_INTAKE VARCHAR(N) F.. 2021. 9. 1.
[Reviews][Finance] Identifying excessive credit growth and leverage 논문 리뷰 서론 논문의 목적 논문은 글로벌 경제 위기와 같은 위기가 신용의 증가를 만들고 이러한 신용 증가는 금융 안정에 대한 시스템적 위험을 만든다는 문제의식에서 시작된다. 이때, 신용 증가는 우리가 흔히 아는 신용 창출(금융 기관들이 대출의 형태도 돈을 공급하여 신용이 늘어나는 형태)로 해석하면 될 것 같다. 이러한 위기상황을 대비하기 위해서 논문에서는 조기경보 모델(Early warning model)을 만들어서, 1) 초과 적인 부채가 발생하는 기간을 식별하고, 2) 보장된 정책 조치들이 가능하도록 하는 것을 목표로 두고 있다. 논문의 방향 1) 금융 위기의 원인으로서 신용 증가와 레버리지의 역할을 조사한다. → 신용 증가는 은행의 위기 같은 금융 위기에 좋은 예측 변수가 된다. 2) 조기 경보 지표에 대한.. 2021. 8. 29.
[Project] ML모형을 활용한 Bank Marketing의 고객 가입여부 예측 분석 동기 직접 전화하는 마케팅이 고객의 가입 여부에 영향을 미치는지 분석하기 위한 프로젝트이다. 2012년 데이터로 지금의 상황과는 다를 수 있다. 그러나, 가입/미가입으로 분류하는 예측 모델을 만드는 것에 의의를 두며 향후 현 상황의 데이터로 은행에서 마케팅에 영향을 미치는 요소를 분석하거나 채무불이행(Default/ Non-default)을 분류할 때 사용할 수 있을 것으로 예상한다. 본론 데이터 구성 데이터는 UCI Machine Learning Repository에서 제공하는 Bank Marketing Data Set을 사용한다. 분석에 사용된 데이터는 2008년 5월에서 2010년 11월까지 수집된 데이터이다. Data Set Characteristics: Multivariate Number .. 2021. 8. 27.
[MySQL][프로그래머스] String/Date(이름에 el이 들어가는 동물 찾기) 문제 설명 ANIMAL_INS 테이블은 동물 보호소에 들어온 동물의 정보를 담은 테이블입니다. ANIMAL_INS 테이블 구조는 다음과 같으며, ANIMAL_ID, ANIMAL_TYPE, DATETIME, INTAKE_CONDITION, NAME, SEX_UPON_INTAKE는 각각 동물의 아이디, 생물 종, 보호 시작일, 보호 시작 시 상태, 이름, 성별 및 중성화 여부를 나타냅니다. NAMETYPENULLABLE ANIMAL_ID VARCHAR(N) FALSE ANIMAL_TYPE VARCHAR(N) FALSE DATETIME DATETIME FALSE INTAKE_CONDITION VARCHAR(N) FALSE NAME VARCHAR(N) TRUE SEX_UPON_INTAKE VARCHAR(N) F.. 2021. 8. 26.
[MySQL][프로그래머스] GROUP BY(입양 시각 구하기2) 문제 설명 ANIMAL_OUTS 테이블은 동물 보호소에서 입양 보낸 동물의 정보를 담은 테이블입니다. ANIMAL_OUTS 테이블 구조는 다음과 같으며, ANIMAL_ID, ANIMAL_TYPE, DATETIME, NAME, SEX_UPON_OUTCOME는 각각 동물의 아이디, 생물 종, 입양일, 이름, 성별 및 중성화 여부를 나타냅니다. NAMETYPENULLABLE ANIMAL_ID VARCHAR(N) FALSE ANIMAL_TYPE VARCHAR(N) FALSE DATETIME DATETIME FALSE NAME VARCHAR(N) TRUE SEX_UPON_OUTCOME VARCHAR(N) FALSE 보호소에서는 몇 시에 입양이 가장 활발하게 일어나는지 알아보려 합니다. 0시부터 23시까지, 각 시.. 2021. 8. 24.
[Programming][MySQL] Data type(문자형, 숫자형, 날짜 시간형) 문자형 데이터 타입 Character Types Meaning CHAR() 문자형의 기본 타입. 괄호 안에 0 ~ 255까지 문자를 적을 수 있으며, 숫자는 최대 작성 가능한 문자열의 수를 나타낸다. (고정 길이 타입, 작성한 글자의 수에 상관 없이 일정한 길이가 할당된다.) VARCHAR() 괄호 안에 0 ~ 65,535까지 문자를 적을 수 있으며, 숫자는 최대 작성 가능한 문자열의 수를 나타낸다. CHAR보다 더 큰 길이가 작성 가능하다. (변동 길이 타입. 최대 길이는 정해져 있지만, 작성된 문자의 길이가 더 적을 경우 그 문자형에 맞춰 길이가 정해진다.) TEXT 최대 0 ~ 65535자까지 작성 가능하다. 긴 문자열을 쓰는 경우 사용하기 적합하다. TINYTEXT 최대 0 ~ 255자까지 작성 .. 2021. 8. 22.
[Programming][MySQL] 뷰(View) 테이블 생성하기 View(뷰) View는 실제로 컴퓨터에 저장되는 테이블이 아니라, 사용자가 필요로 하는 부분만 선택해서(조인, 생성, 삭제 등) 만들어 놓은 가상 테이블이다. 따라서, 1) 자주 쓰고 필요한 부분만 따로 가공하여 사용하고자 할 때 편리하게 사용할 수 있다. 2) 금융회사 같은 경우에는 고객들의 개인 정보와 같은 보안 사항을 포함한 전체 테이블을 다룰 때가 있다. 직군에 따라 보안의 권한이 다르기도 하고, 쉽게 유출되지 않게 하기 위해서 권한이 주어지지 않은 부서는 뷰 테이블을 만들어서 사용한다. 이처럼, 뷰는 보안에도 강점을 나타낸다. 단점으로는, 1) 한 번 정의된 뷰는 변경이 불가능해서 뷰 테이블 자체를 삭제하거나 대체 뷰 테이블을 만들어 새로 생성해야 한다. 2) 뷰 테이블 안의 정보들을 삭제, .. 2021. 8. 22.
[Programming][MySQL] 데이터 정규화(제1 정규화, 제2 정규화, 제3 정규화, 비정규화) 데이터 정규화 정규화란 데이터 베이스를 설계할 때 중복을 최소화하는 것을 말하며, 크고 제대로 조직화되어 있지 않은 테이블과 관계들을 조직화된 테이블과 관계들로 나누는 것이다. (출처: https://ko.wikipedia.org/wiki/%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B2%A0%EC%9D%B4%EC%8A%A4_%EC%A0%95%EA%B7%9C%ED%99%94) 정규화가 필요한 경우 데이터를 갱신, 삽입, 삭제하는 등 테이블을 수정할 때 원하는 않게 데이터가 삭제되거나 가공되는 경우가 있다. 이를 이상 현상이라고 한다. 1) 갱신 이상 정확하지 않은 정보가 업데이트되거나, 일부의 정보만 업데이트되어 정보에 혼란이 생기고 모호해질 수 있다. 항공편 데이터 베이스가 있다고 할 때, .. 2021. 8. 16.
반응형