모델링: 1개의 글
[Spark] 데이터 모델링 준비하기
모든 데이터는 보통 지저분하고 데이터가 의도한 것에 대한 충분한 신뢰성을 가지고 있지 않습니다. 데이터가 깨끗한 상태에 있다는 것을 스스로 증명하거나 테스트하기 전까지는 데이터를 모델링에 사용하거나 지나치게 신뢰하면 안됩니다. 데이터는 중복 데이터나 관찰되지 않은 값, 아웃라이어, 존재하지 않는 주소, 잘못된 폰번호 또는 지역 코드, 올바르지 않은 지역 좌표, 잘못된 데이터나 레이블, 대소문자 구분, 공백 관련 문제를 가지고 있습니다. 데이터 과학자나 데이터 엔지니어는 통계 모델 또는 머신러닝 모델을 빌드하기 위해 이러한 데이터를 깨끗하게 만들어야 합니다. 데이터는 앞에서 말한 문제점들이 없을 경우 기술적으로 깨끗하다고 말할 수 있습니다. 그러나 모델링을 목적으로 데이터셋을 깨끗하게 하기 위해서는 피처의..
Big Data/빅데이터
2020. 8. 3. 15:13