데이터 분석: 4개의 글
Python에서 데이터 분석을 위한 라이브러리 Pandas, Matplotlib, Numpy를 10분만에 익히는 방법 python에서 데이터 분석을 하기 위해서는 주로 사용하는 라이브러리가 있습니다. pandas, matplotlib, numpy입니다. 패키지들을 이용하는 이유는 데이터 분석을 용이하게 할 수 있도록, matrix연산과 시각화를 지원합니다. pandas는 DataFrame, Series의 데이터 객체를 이용해서 데이터를 쉽게 가공을 할 수 있습니다. 더나아가 평균, 분산, 최대, 최소 등을 쉽게 연산할 수 있습니다. 그 외에도 데이터 변수 사이에 연관성, 그룹, 선택, 조인 등의 다양한 함수를 통해 matrix를 효율적으로 쉽게 가공 할 수 있습니다. matplotlib은 데이터의 분포 ..
The Art of Feature Engineering Feature Engineering이란? 기존에 있는 데이터의 변수로 feature를 변경하거나, 새롭게 추가하여 모델링을 하거나, 예측을 할때 데이터를 더 유용하게 만드는 방법이라고 할 수 있습니다. feature engineering의 한 예를 들면, 데이터는 날짜별(date(dd-mm-yy))로 쇼핑몰에 얼마나 고객들이 방문하는지에 대한 내용을 담고 있다. 이제 이 데이터를 이용해 쇼핑몰에 고객들이 얼마나 방문하는지 예측을 할 것이다. 하지만 만약 날짜별 쇼핑몰 방문 수를 했을때, 날짜를 그대로 예측하는데 사용하면 어떻게 될까... 물론 그 날짜 그대로 사용하면 의미있는 결과는 나올 수 없다. 하지만 기존에 있는 변수를 이용해서 새로운 변수들을..
Data Exploration Guide Data Exploration, preparation, cleaning, 등의 데이터로 실제 모델을 만들기 전에 데이터 전처리에 종합적인 방법에 대해서 설명을 하려고 합니다. 일단 데이터를 통해 모델을 만들면, 정확도를 올리기 위해 많은 방법론 적인 내용이 있습니다. 그 데이터를 전처리 하는 과정은 아래와 같습니다. 1. Steps of Data Exploration and Preparation 2. Missing Value Treatment 3. Techniques of Outlier Detection and Treatment 4. The art of feature Engineering Steps of Data Exploration and Preparation ..
이번 포스팅은 엘라스틱서치 Aggregation(집계) API 두번째 글이다. 이번 글에서는 집계중 버킷집계(Bucket)에 대해 알아볼 것이다. 우선 버킷 집계는 메트릭 집계와는 다르게 메트릭을 계산하지 않고 버킷을 생성한다. 생성되는 버킷은 쿼리와 함께 수행되어 쿼리 결과에 따른 컨텍스트 내에서 집계가 이뤄진다. 이렇게 집계된 버킷은 또 다시 하위에서 집계를 한번 더 수행해서 집계된 결과에 대해 중첩된 집계 수행이 가능하다. 버킷이 생성되는 것은 집계 결과 집합을 메모리에 저장한다는 것이기 때문에 너무 많은 중첩 집계는 메모리 사용량을 점점 높히기에 성능에 악영향을 줄 수 있다. 이러한 문제때문에 엘라스틱서치는 설정으로 최대 버킷수를 조정할 수 있다. > search.max_buckets 버킷의 크기..