728x90 분류 전체보기74 [Oracle][프로그래머스] GROUP BY / 입양 시각 구하기(1) 문제 설명 ANIMAL_OUTS 테이블은 동물 보호소에서 입양 보낸 동물의 정보를 담은 테이블입니다. ANIMAL_OUTS 테이블 구조는 다음과 같으며, ANIMAL_ID, ANIMAL_TYPE, DATETIME, NAME, SEX_UPON_OUTCOME는 각각 동물의 아이디, 생물 종, 입양일, 이름, 성별 및 중성화 여부를 나타냅니다. NAME TYPE NULLABLE ANIMAL_ID VARCHAR(N) FALSE ANIMAL_TYPE VARCHAR(N) FALSE DATETIME DATETIME FALSE NAME VARCHAR(N) TRUE SEX_UPON_OUTCOME VARCHAR(N) FALSE 보호소에서는 몇 시에 입양이 가장 활발하게 일어나는지 알아보려 합니다. 09:00부터 19:59.. 2022. 5. 10. [Reviews][Thesis] Lending Club 데이터 불균형에 관한 논문 리뷰 미국의 P2P 대출 기업인 Lending Club 데이터셋으로부터 지급 불능 여부를 예측하고자 할 때, 완전히 지급된(Fully Paid)의 건수는 80% 정도를 차지한다. 반면에, 120일 이상 경과하여 지급불능의 상태로 여겨지는 (Default)의 건수는 20%를 차지한다. 이때, 예측하는 데이터가 불균형하여 제대로 학습이 되지 않고 예측력이 떨어지는 현상이 발생하게 된다. 아래의 논문을 리뷰하며 데이터 불균형을 해소할 수 있는 방법을 학습하고자 한다. 리뷰 논문 NAMVAR, Anahita, et al. Credit risk prediction in an imbalanced social lending environment. arXiv preprint arXiv:1805.00801, 2018. Abs.. 2022. 2. 28. [Recommender System] 내용 기반 추천 시스템(Contents-Based Recommender System) 먼저 내용 기반 추천 시스템이란, 추천 시스템의 한 종류로 사용자(User)가 경험하고 평가했던 아이템(Item)을 기반으로 분석하여 추천하는 것을 말한다. 예를 들어, 쇼핑몰에서 좋은 평점을 매긴 아이템, 긍정적인 리뷰가 많은 아이템, 구매한 내역이나 장바구니에 추가한 아이템(Item)들을 기반으로 그와 비슷한 새로운 아이템을 추천한다. 프로세스(Process) 1) 콘텐츠에 대한 특징(feature) 분석 먼저, 정형 데이터와 비정형 데이터로부터 얻을 수 있는 정보를 통해 콘텐츠에 대한 분석이 필요하다. 이때 모든 아이템들에 대한 분석이 필요하며 이를 벡터(Vector)화 하여 생성한다. 아이템을 분석할 수 있는 요소는 다양하게 존재한다. 쇼핑몰의 경우 제품의 카테고리, 색상, 계절, 제품의 설명 등.. 2022. 2. 13. [Recommender System] 추천 시스템을 위한 K-최근접 이웃 알고리즘(K-Nearest Neighbor) K-최근접 이웃 알고리즘(K-Nearest Neighbor)은 이름 그대로 가장 가깝게 근접해 있는 이웃 K개를 토대로 결과를 예측하는 것이다. 추천 시스템에서는 이를 이용해서 아이템(Item)이나 사용자(User)의 결과를 예측할 때 가까운 K개의 데이터를 분석하여 추천을 하는 데 사용한다. 예를 들어 위험 성향과 수익률을 통해 고객에게 금융상품을 추천한다고 가정하자. 적금/ 상장지수펀드(ETF) / 주식 세 종류의 금융상품(Item)을 특성에 맞게 세 분류로 나눌 수 있다. 펀드나 주식의 경우 종류에 따라 위험과 수익이 다르지만 구분을 위해 펀드는 지수를 추종하는 상장지수펀드로 중위험 중수익, 주식은 고위험 고수익의 변동성이 큰 경우로 예시를 든다. 세 군집으로 금융상품(Item)이 구분되어 있을 때.. 2022. 2. 8. [Programming][R] 작업 중간(workspace) 파일 저장하기 작업 중간에 결과를 저장하지 않고 R을 종료하면, 파일이 저장되지 않아 처음부터 다시 프로그램을 수행해야 하는 상황이 생긴다. 이때, 작업 중간중간 결과를 저장하는 쉬운 방법에 대해 알아보자! SAVE로 저장하기 model_xgboost.bak 2022. 2. 4. [Recommender System] 추천 시스템의 기본 개념 추천 시스템이란? 사용자(user)의 과거 데이터, 개인 정보, 방문 기록 등 다양한 데이터를 이용하여 정보나 제품(item)을 추천해 주는 시스템이다. 요즘은 추천 시스템이 많은 기업들에서 활용되고 있다. 그렇기 때문에, 넷플릭스나 왓챠와 같이 몇 개의 관심 있는 항목을 선택한 뒤 이를 기반으로 좋아할 만한 콘텐츠를 추천받아 이용하고 있는 사람들이 많아졌다. 또한, 다양한 인터넷 쇼핑몰에서 내가 구매하거나 클릭한 상품을 바탕으로 관심 있을 법한 상품들을 추천해 주는 것을 쉽게 접할 수 있다. 추천 시스템의 종류 1. 협업 필터링(Collaborative Filtering) 비슷한 취향을 가진 소비자들을 하나의 집단으로 보고 그 집단에 속한 사람들이 좋아한 아이템을 성향이 비슷한 유저에게 추천하는 방법이.. 2022. 2. 2. [Programming][R] 데이터 타입 변환하기 1부터 10까지의 숫자를 이용하여 다양하게 데이터 타입을 변경해보자. x 2022. 1. 31. [Programming][R]sample( ) 난수 생성하기(set.seed( ) 활용) 난수(Random number) 란? 난수는 일정한 범위 안에서 무작위로 추출된 수를 의미한다. 영어로 Random number로 쓰이는 것처럼 예측할 수 없고, 정해지지 않은 임의로 추출되는 수이다. R에서 난수 생성하는 방법 sample( ) 함수를 이용해서 R에서 난수를 생성할 수 있다. sample(x, size, replace = FALSE, prob = NULL) x: 생성하고자 하는 난수의 범위. size: 추출하려는 난수의 개수. replace: 복원 추출 여부. (TRUE: 중복해서 추출/ FALSE: 중복 없이 추출. 기본값은 FASLE이다.) prob: 추출되는 원소의 확률 가중치 벡터. sample(1:50, size = 7, replace = FALSE) [1] 15 11 8 7 .. 2022. 1. 31. [Programming][R] 랜덤 포레스트(Random Forest) R로 구현하기 패키지 설치 랜덤 포레스트를 사용하기 위해서 'randomForest' 패키지를 설치하고, 라이브러리로 불러온다. install.packages("randomForest") library(randomForest) randomForest 패키지에 대한 자세한 설명은 아래 첨부에서 확인할 수 있다 :) https://cran.r-project.org/web/packages/randomForest/randomForest.pdf 모델링 먼저, ntree와 mtry 파라미터를 이용하여 최적의 랜덤 포레스트 모델을 찾는다. ntree: 증가시킬 수 있는 가지의 수로, 모델에서 만들 의사결정 나무의 개수를 의미한다. mtry: 나무에서 분할할 때 랜덤 하게 표본 추출되는 변수의 수이다. 기본 값은 sqrt(변수의 수.. 2021. 12. 22. [Statistics][Regression] 비선형 회귀모형(로지스틱 회귀모형; Logistic Regression) 선형 회귀 모형 종속변수(Y)가 독립변수(X)들에 의해 어떻게 설명되는지를 나타낸 모형으로 다음과 같은 식의 형태를 갖는다. → 이때, 선형 회귀에서 종속변수(Y)는 정규분포를 따르고, 연속형이어야 한다. 일반화 선형 모형(Generalized Linear Model) 종속변수가 연속형이 아니거나, 정규 분포를 따르지 않을 때 사용할 수 있는 모형을 일반화 선형 모형(GLM)이라고 한다. 종속변수가 이항일 때: 로지스틱 회귀모형 (Losgistic regression model) 종속변수가 다항일 때(명목형): 기준 범주 로짓 모형(Baseline - category logit model) 종속변수가 다항일 때(순서형): 누적 로짓 모형(Cumulative logit model) 로지스틱 회귀모형(Log.. 2021. 10. 14. 이전 1 2 3 4 5 6 7 8 다음 반응형