Preprocessing: 1개의 글
[데이터 분석] Data Exploration Guide - Outlier(3)
Outlier란? 잘못 평가된 값으로, 결과적으로 잘못된 분석결과를 초래할 수 있는 값들을 말합니다. 간단하게 말해서 샘플의 전체적인 패턴에서 벗어나게 관측되는 값을 말합니다. 아래 그림을 보면 고객들의 수입을 프로파일링 한 결과를 box-plot 그래프로 표현을 했습니다. 수입의 분포를 보면 $0.8million이 매년 수입의 평균을 나타냅니다. 그러나 두명의 고객은 매년 $4, $4.2 million의 수입이 있습니다. 전체적인 population을 볼때 이 두명의 고객은 상대적으로 많이 높은 수입을 갖고 있습니다. 이처럼 두명의 고객의 수입은 전체적인 수입 패턴에서 벗어나게 나타나는 outlier라고 말할 수 있습니다. Outliers의 종류 Outlier의 종류는 Univariate와 Multiv..
Big Data/데이터 분석
2021. 5. 3. 01:49