[R] 데이터 개념 이해하기
통계분석 데이터 처리
데이터의 특성이 의미있게 드러나도록 표, 차트, 도식으로 표현.
관심대상 선정 -> 테이블로 정리 (관찰 대상 선정 -> 속성 선정)
ex. 관찰대상: 대학생 / 속성: 성별, 이름, 성적 등.
대상별로 서로 다른 값을 가질 수 있어. 속성을 변수(variable)라고 표현.
variable이 정해지면, 변수에 기록값을 관찰치/측정치(case, observed value) 또는 변수값(value)라고 함.
관찰치의 모음(set) --> data / 관찰대상(행) 변수(열)의 합을 다시 자료(data) 또는 자료집합(data set)이라고 함.
통계분석은 주로 집단의 특성치 / 상관이나 인과를 파악하는 목적이므로. 하나의 관찰치는 분석 목적으로 유요하지 않음.
(하나의 열: 최댓값, 최솟값, 평균값 도출 / 두개 이상의 열: 상관관계, 인과관계 추정 가능) --> 통계분석 자룔르 행의 집합보다는 열의 집합으로 보는 관점 필요.
집단은 특성치나 상관, 인과, 패턴 등이 시점에 따라 변하므로 통계분석은 그 특성치나 패턴을 찾기 위하여 변수 관찰이나 실험을 함.
값의 종류, 즉 변수 타입이 다름(보통 숫자, 숫자가 아닌것으로 분류)으로 인해 적용하는 통계분석 기법도 다르다.
숫자 (양적 변수) : 이산형 변수 / 연속형 변수
숫자가 아닌것(질적 변수) : 명목형 변수 / 순서형 변수
1.(양적) 이산형 데이터 -> 이항 분포, 확률질량함수(수가 커질수록 정규분포 곡선에 가까워짐)
2.(양적) 연속형 자료
어떤 구간 안에 어떠한 값이라도 연속하여 취할 수 있는 데이터 (ex. 키, 몸무게)
확률밀도함수: 확률론에서 확률 밀도 함수는 확률 변수의 분포를 나타내는 함수로, 확률 밀도 함수 f(x)와 구간 [a,b]에 대해서 확률 변수 X가 구간에 포함될 확률
3.(질적) 명목형 자료
범주를 구분하는값(ex. 성별, 혈액형, 종교 등) 회귀분석.
4.(질적) 순서형 자료
범주의 구분 이상으로 순서를 정할수 있음 (ex. 성적)
활용도 : 연속형자료 > 이산형자료 > 순서형자료 > 명목형자료
통계에서 데이터를 표로 가장 잘 정리하는 것은 통계 전체 작업에서 중요도 높음.
도수분포표 : 특정 범주별 수량을 세어 나타낸 표
상대도수분표포 : 전체 변수값에서 어떤 비중을 차지하는지 나타내는 것을 '상대도수'
분할표 : 두가지 이상의 명목형 변수에 대하여 특정 범주별 수량을 나타낸 표. 명목형 변수별 합 / 총합까지 알수 있음. (상대 비율이 되는 기준은 목적에 따라 달라짐.)
목적에 따라 상대비율의 기준을 정해 사용할 수 있음.
데이터 분석에 적합한 테이블 형식, 객체 -> 데이터프레임
데이터 관리(DBMS) / 데이터 분석(R, Spark 등 ..)
R은 SQL, Excel과 같은 데이터를 관리하는 도구에서 완벽하게 데이터를 정리하고 정리된 한개의 테이블을 R로 가져와서 분석을 함.
데이터 수집/정제 (전처리) 과정보다는 분석에 초점.
벡터 - R의 최소 데이터 단위
프로그래밍에서 다루는 가장 작은 우너소 데이터는 스칼라이고 스칼라 집합이 벡터가 됨. (대부분 프로그램에서는 스칼라가 가장 작은 데이터 단위)
R에서 가장 작은 데이터 단위 (벡터) - R에서 1이라는 값은 정수 스칼라 1이 아니라 벡터1입니다. 원소 한개만 있는 벡터
평균 / 분산 /
여러개의 벡터 집합 -> 하나의 데이터프레임. => 데이터프레임을 대상으로 분석을 하게됨.
연속형변수 (numeric타입) : 실수까지 표현 가능
이산형변수 (integer타입) : 정수값 표현
순서/명목형 변수 (factor)
character (문자열)
출처: https://12bme.tistory.com/393?category=737765 [길은 가면, 뒤에 있다.]
'Big Data > 빅데이터' 카테고리의 다른 글
[대용량데이터] 대용량 처리 컨셉 오버뷰 (0) | 2020.08.03 |
---|---|
[ELK] 엘라스틱서치 배우기 - 검색API (0) | 2020.08.03 |
[ELK] 엘라스틱서치 배우기 (0) | 2020.08.03 |
[ELK] 키바나 5.0 배우기 (0) | 2020.08.03 |
[빅데이터] 검색시스템 간단 요약 (0) | 2020.08.03 |
[Spark] 스파크 ML 패키지 (0) | 2020.08.03 |
[Spark] 데이터 모델링 준비하기 (0) | 2020.08.03 |
[Spark] 데이터프레임 (0) | 2020.08.03 |