목차 Ⅰ. 분석개요 Ⅱ. 세부내용 1. 변수분할 2. 변수정리 / 기초작업(scoring, exclusion, dummy, metric 규정) 3. 로지스틱 회귀분석 실시 5. Fitted value 조절에 따른 모형 적합도 판단 6. Test set 에의 검증
본문
1. 변수분할 - 7:3으로 1000개의 변수 분할 (7Training Group, 3Test Group)
2. 변수정리 / 기초작업(scoring, exclusion, dummy, metric 규정) 1) Checking account(부도율과 음의 상관관계) : 계정이 없다부터, 계정이 커질수록 높은 점수를 배치하였다. 하지만 각 분포별 부도율을 보면, checking account가 없는 집단의 부도율이 오히려 그것이 어느 정도 있는 그룹보다도 낮았다. 따라서 A14(no checking account)소그룹만 따로 Group Profile 분석을 통해 이 소그룹의 특성을 파악해보았다. 파악결과, 오히려 가장 낮은 A13보다도 A14그룹만의 분석결과는 부도율이 더 낮았다. 따라서, 스코어링을 다시하기로 결정(No checking account에 가장 높은 스코어값 할당). 2) Duration in Month : numerical 변수이기에 놔두었다. 다만, Property와의 선형상관관계 가 있는지는 알아보았다. (Regression으로 확인결과 유의한 P값 도출, 관계성 확인) 3) Credit History : Dummy 처리 실시(4개로) - 각 카테고리별 부도율의 방향성, 관계성이 보이지 않음. 4) Purpose : Dummy 처리 실시(7개로) - 마찬가지로 부도율의 방향성, 관계성이 보이지 않음 5) Credit Amount : numerical 변수이기에 놔두었다. 다만, Property와의 선형상관관계가 있는지는 알아보았다. (Regression으로 확인결과 유의한 P값 도출, 관계성 확인) 6) Savings accout / bonds : 유의한 상관관계가 보인다. 따라서, 스코어링 작업 실시.
본문내용 별 분석(checking account만) → 로지스틱회귀분석 실시 → 반복 → 최종모델 도출 → 적합도 확인(Fitted value 조정, predict, table, ROC) → Test Model 에의 적용 Ⅱ. 세부내용 1. 변수분할 - 7:3으로 1000개의 변수 분할 (7Training Group, 3Test Group) 2. 변수정리 / 기초작업(scoring, exclusion, dummy, metric 규정) 1) Checking account(부도율과 음의 상관관계) : 계정이 없다부터, 계정이 커질수록 높은 점수를 배치하였다. 하지만 각 분포별 부도율을 보면, checking account가 없는 집단의 부도율이 오히려 그것이 어느 정도 있는 그룹보다도 낮았다. 따라서 A14 |
댓글 없음:
댓글 쓰기