"Black box" 모델로 일컫는 Artificial Neural Networks, Support Vector Machine, Ensemble Approaches와 같은 모델들은 비선형 함수로 복잡도가 높아서 성능이 좋지만, 알고리즘의 설계자 조차도 그 모델이 어떻게 설계되었는지 설명(explainability) 하지 못하고 해석력(Interpretability)이 부족한 경우가 있다. 그렇기 때문에, 알고리즘을 사용하여 어떠한 결정을 내릴 때 그 알고리즘을 설명해야 하는 권리과 책임이 요구되는 추세이다.
- Explainability: 머신러닝이나 딥러닝 시스템의 내부 메커니즘을 인간 용어로 설명할 수 있는 정도. 무슨 일이 일어나고 있는지 설명할 수 있는 능력.
- Interpretability: 시스템 내에서 원인과 결과를 관찰할 수 있는 정도. 입력 또는 알고리즘 파라미터의 변경에 따라 어떤 상황이 발생할지 예측할 수 있는 정도.
(출처: https://www.kdnuggets.com/2018/12/machine-learning-explainability-interpretability-ai.html)
Black box 모델은 주로 금융분야에서 많이 쓰이는데 특히, 파산을 예측(bankruptcy prediction)할 때 주로 쓰인다. 이때, 파산 예측에서 중요한 포인트는 채무불이행이 발생하거나 고객이 미래에 파산할 확률을 예측하는 것이다.
상위의 파산 예측 모델(BPM) 8개 중에 6개는 AI 기반으로 설계되었는데, 사람들이 이해할 수 있는 필요들이 발생하고 있다. 따라서, 논문에서는 파산을 예측하는데(bankruptcy) domain knowledge를 사용해서 black box 모델의 해석력과 설명력을 높이고자 한다.
- 논문의 기여점:
1) 문헌에서 도메인 지식을 수집하고 사용하는 방법을 설명했다.
먼저 파산 문헌들에서 빈번하게 사용되는 경우를 찾기 위해 frequent pattern mining algorithm을 사용하고, 실험의 feature sets을 일반화시키기 위해 대중적인 재무 개념을 관련지어 domain knowledge를 black box 모델에 적용하여 해석력과 설명력을 높일 것이다.
2) 해석 가능성과 설명 용이성을 돕기 위해 문헌에서 대중적인 개념(예: 신용의 5C)을 가져오는 방법을 소개했다.
→ 분석하는데 중요하게 사용되는 신용도 5C
character (성격: reputation of the borrower/firm), capital (자본: leverage), capacity (역량: volatility of the borrower’s earnings), collateral (담보: pledged asset), cycle (주기: macroeconomic)
3) Black box 모델은 domain knowledge가 적용될 때 성능 저하가 거의 없거나 전혀 없이 더 잘 설명할 수 있다는 실험 결과를 산출했다.
- 방법론
- Feature generalizer
다양한 파산 예측 문헌에서 사용되는 서로 다른 feature 집단들 중에서 빈도가 높은 집합들을 찾기 위해서 frequent pattern algorithm인 Aprior을 사용해서 마이닝한다.
쉽게 생각하면, Figure 1에서 볼 수 있는 것과 같이 처음에 모기지 부도 예측 문헌들에서 사용되는 데이터 셋 전체에서 시작된다. 이 feature들을 데이터 마이닝을 하기 위해 Apriori(ex. 장바구니 분석) 알고리즘을 사용하여 빈번한 feature들을 마이닝한다. Xf1-Xfm은 지지도와 최대 개수를 사용하여 만들어진 데이터 셋들이고, 마이닝한 결과이기 때문에 m의 개수가 n보다 작게 산출된다. 이 feature들에 mapper를 domain knowledge를 적용한다. 논문에서는 파산 예측이기 때문에 앞에서 설명한 신용의 5C를 사용해서 mapper를 만들었다. feature 1과 같은 프로세스를 거치면 domain knoelwdge를 적용한 일반화된 feature들이 준비된다.
- Evaluator
일반화된 feature들과 original feature들과의 결과를 비교할 때 사용한다.
origianal feature와 generalized feature와의 차이가 임계값 내에 있으면 일반화된 실험에서 얻은 결과를 최종의 결과로 간주하고, 각각 일반화된 feature의 빈도의 기여도를 사용하여 설명하게 된다.
- Algorithms
1) Apriori
논문에서 Apriori 알고리즘은 feature나 설명 변수가 어떠한 임계점에 충족하면 frequent feature set으로 정한다. 이때, 지지도(X)는 (X의 모든 특징이 나타나는 문헌 수) / (전체 문헌 수)로 산출한다. 예를 들어, 임계값이 0.5(50%)이고 LTV, creditScore, interestRate, delinquencyStatus이 feature set일 때 이 집합들이 논문에서 최소 50% 이상 함께 발견되는 경우 이를 frequent feature set으로 간주한다.
2) Artificial Neural Network (ANN)
ANN은 1994년 Wilson과 Sharda가 파산 예측을 위해 처음 사용하였다.(Rick L Wilson and Ramesh Sharda. 1994. Bankruptcy prediction using neural networks. Decision support systems 11, 5 (1994), 545–557.) 다양한 성능 metrics에서 충분한 데이터가 주어지면, ANN은 비선형 함수를 학습할 수 있기 때문에 많은 문제에 대해 최상의 성능을 발휘한다.
3) Support Vector Machine (SVM)
고차원의 feature space에서 입력 백터의 비선형적인 mapping을 사용해서 서로 다른 클래스의 인스턴스를 구분하는 최적의 초평면을 학습하는 모델이다. SVM은 파산 예측을 위한 상위 비선형 알고리즘 중 하나인데, 표본 수가 너무 많으면 계산 시간 측면에서 매우 많은 비용이 소요된다. 따라서, 이때는 ANN과 같은 비선형 알고리즘을 사용하는 것이 더 효율적일 수 있다.
4) Random Forest(RF)
랜덤 포레스트(Random Forest)는 브레이먼 등이 개발한 트리 기반 앙상블 기법이다. 최종 예측을 위해 트리들의 결과가 평균화되기 때문에, 모형의 분산을 줄이는 데 효율적이고 트리가 독립적으로 작동하기 때문에 병렬 컴퓨팅 환경에 효과적이다. RF 알고리즘은 다양한 신용 평가 및 고객 이탈 애플리케이션에 사용되어 왔다.
5) Extra Trees (ET)
RF와 동일하게 트리 기반의 앙상블 기법을 사용한 알고리즘이지만, 속성을 선택하고 임계점을 결정하는 것을 랜덤 하게 이루어진다. 따라서, 임의로 선택한 값 중 가장 좋은 값이 분할 규칙의 임계점으로 설정된다. 의사결정 트리에 비해 분산이 감소하지만, 편향성이 도입될 수 있다. ET 알고리즘은 이상/ 불량 감지 연구에서 성능이 좋게 사용되고 있다.
6) Gradient Boosting (GB)
Gradient Boosting은 약한 예측 모델들의 앙상블로 구성된 분류/ 회귀 모델이다. 각 후속 모델이 이전 단계에서 파악하기 어려웠던 인스턴스에 초점을 맞춰 손실 함수를 최소화한다.
- Data & Experiments
1) 33개의 연구 논문에서 추출한 features
33개의 논문에서 추출한 feature들을 input data로 사용하고 support 임계점은 0.05, 최대 길이를 8로 설정하여 frequent pattern mining을 한다. 이때 최대 길이는 frequent feature set에서 볼 수 있는 최대 숫자를 의미한다.
5C에서 domain knowledge 개념을 가지고 와서 5C 중 각 C들에서 최소 1개 이상 일치하는 기능을 가진 frequent feature set만 남긴다.
Table 3은 매핑을 수행한 방법이고, Table 4는 매핑된 generalized frequent feature set을 보여 준다.
2) Freddie Mac single-family loan-level dataset(Public available) : Evaluator Part에서 사용
기존의 데이터 집합은 불균형 데이터 집합이므로 샘플링된 데이터에는 113,130개의 레코드만 포함되며, 이 중 198개만 default로 지정되므로 목표 샘플의 비율이 0.18%(<1%)에 불과한 고도의 불균형 데이터 집합이었다. 따라서, 데이터의 계층화된 표본을 추출하여 원본 데이터 집합과 표본 데이터 집합 모두에서 default와 non-default 표본의 비율이 동일한지 확인한다.
→ 54개의 feature 중 랜덤 포레스트 알고리즘을 사용하여 중요하지 않은 feature 24개를 제거하고, 70%를 training data로 사용하고 30%를 test data로 사용했다.
→ Original features는 위의 24개를 제거하고 선택된 30개의 feature를 이용하고, generalized freatures는 domain knowledge로 매핑된 feature들을 각각 알고리즘에 사용한다.
3) Experiments
모델 끝에 G가 붙은 알고리즘이 generalized frequent features를 적용한 것이다.
→ 정확도에서는 두 모델의 차이가 발생하지 않는다. 데이터의 불균형이 심하여 성능을 측정하기에는 정확도가 적합하지 않다. 이 모형은 대부분의 표본을 다수 클래스로 분류하여 매우 높은 정확도를 가질 수 있고, 잘못된 결론을 도출할 수 있다.
→ 정밀도에서 generalized frequent feature set을 사용할 때 모든 알고리즘의 성능이 약간(2 ~ 5%) 떨어진다.
→ Recall과 Fscore에서는 GB-G가 최고의 성능을 나타내며, RF-G가 최악의 성능을 나타낸다.
→ ROC-AUC 성능에서는 ANN-G가 최악의 성능을 ET-G가 최고의 성능을 가진다.
전반적으로, 정확도를 제외하고 비교하면 generalized frequent feature set에서 더 높은 성과를 보이고 있다.
결과를 해석 가능하게 보이기 위해서 총위험을 백분율로 표현하는 식을 사용한다.
g는 generalized frequent feature으로 domain knowledge의 각 요소로부터의 기여도 측면에서 산출물을 표현할 수도 있다. 이는 해석 가능성(Interperyablity)을 약간 개선할 수 있다.
- 결론
Black box 모델의 문제점을 해결하기 위해 SHAP, LIME, DeepLIFT, Tree Interpreter 등 다양한 방법들이 제시되었다. 그러나, 머신러닝과 딥러닝을 각 분야에 적용할 때 해당 분야의 전문적인 지식이 기본이 되고 중요한 만큼 domain knowledge를 사용하여 해석력과 설명력을 높인다는 점이 인상적이었다. 알고리즘이나 모델들은 점점 더 다양해지고 복잡해지는 반면, 패키지의 발전으로 사용하기는 점차 쉬워지고 있다. 모델의 설계를 이해하지 못한 채 적용한다면, 분야에 따라서는 위험한 상황이 발생할 수도 있을 것이라는 생각이 든다.
이 논문에서 한 가지 아쉬운 점은 domain knowledge가 feature selection에서 적용되는 것임에도 불구하고 평가 지표에 따라서, 모델에 따라서 평가 수치가 차이가 난다는 것이었다. 물론 데이터에 따라 최적화되는 모델이 달라지기는 하지만, original feature와 generalized feature가 평가 지표에 따라 우위를 점하는 수치가 다르고 큰 차이를 보이지 않는다는 점에서 generalized feature set을 사용할 때는 데이터에 맞게 효과를 높일 수 있는 경우 사용하는 것이 좋지 않을까 생각해 본다.
논문 출처:
Islam, Sheikh Rabiul, et al. "Infusing domain knowledge in AI-based" black box" models for better explainability with application in bankruptcy prediction." arXiv preprint arXiv:1905.11474 (2019).
'Reviews > Thesis' 카테고리의 다른 글
[Reviews][Thesis] Lending Club 데이터 불균형에 관한 논문 리뷰 (0) | 2022.02.28 |
---|---|
[Reviews][Finance] Identifying excessive credit growth and leverage 논문 리뷰 (0) | 2021.08.29 |
댓글