[R] 데이터 개념 이해하기

2020. 8. 3. 15:19 Big Data/빅데이터

통계분석 데이터 처리


데이터의 특성이 의미있게 드러나도록 표, 차트, 도식으로 표현.

관심대상 선정 -> 테이블로 정리 (관찰 대상 선정 -> 속성 선정)
ex. 관찰대상: 대학생 / 속성: 성별, 이름, 성적 등.

대상별로 서로 다른 값을 가질 수 있어. 속성을 변수(variable)라고 표현.

variable이 정해지면, 변수에 기록값을 관찰치/측정치(case, observed value) 또는 변수값(value)라고 함.

관찰치의 모음(set) --> data / 관찰대상(행) 변수(열)의 합을 다시 자료(data) 또는 자료집합(data set)이라고 함.

통계분석은 주로 집단의 특성치 / 상관이나 인과를 파악하는 목적이므로. 하나의 관찰치는 분석 목적으로 유요하지 않음.
(하나의 열: 최댓값, 최솟값, 평균값 도출 / 두개 이상의 열: 상관관계, 인과관계 추정 가능)  --> 통계분석 자룔르 행의 집합보다는 열의 집합으로 보는 관점 필요.

집단은 특성치나 상관, 인과, 패턴 등이 시점에 따라 변하므로 통계분석은 그 특성치나 패턴을 찾기 위하여 변수 관찰이나 실험을 함.

값의 종류, 즉 변수 타입이 다름(보통 숫자, 숫자가 아닌것으로 분류)으로 인해 적용하는 통계분석 기법도 다르다.

숫자 (양적 변수) : 이산형 변수 / 연속형 변수
숫자가 아닌것(질적 변수) : 명목형 변수 / 순서형 변수

1.(양적) 이산형 데이터 -> 이항 분포, 확률질량함수(수가 커질수록 정규분포 곡선에 가까워짐)





2.(양적) 연속형 자료
어떤 구간 안에 어떠한 값이라도 연속하여 취할 수 있는 데이터 (ex. 키, 몸무게)
확률밀도함수: 확률론에서 확률 밀도 함수는 확률 변수의 분포를 나타내는 함수로, 확률 밀도 함수 f(x)와 구간 [a,b]에 대해서 확률 변수 X가 구간에 포함될 확률




3.(질적) 명목형 자료
범주를 구분하는값(ex. 성별, 혈액형, 종교 등) 회귀분석.

4.(질적) 순서형 자료
범주의 구분 이상으로 순서를 정할수 있음 (ex. 성적)


활용도 : 연속형자료 > 이산형자료 > 순서형자료 > 명목형자료




통계에서 데이터를 표로 가장 잘 정리하는 것은 통계 전체 작업에서 중요도 높음.

도수분포표 : 특정 범주별 수량을 세어 나타낸 표
상대도수분표포 : 전체 변수값에서 어떤 비중을 차지하는지 나타내는 것을 '상대도수'
분할표 : 두가지 이상의 명목형 변수에 대하여 특정 범주별 수량을 나타낸 표. 명목형 변수별 합 / 총합까지 알수 있음. (상대 비율이 되는 기준은 목적에 따라 달라짐.)
            목적에 따라 상대비율의 기준을 정해 사용할 수 있음.


데이터 분석에 적합한 테이블 형식, 객체 -> 데이터프레임

데이터 관리(DBMS) / 데이터 분석(R, Spark 등 ..)

R은 SQL, Excel과 같은 데이터를 관리하는 도구에서 완벽하게 데이터를 정리하고 정리된 한개의 테이블을 R로 가져와서 분석을 함.

데이터 수집/정제 (전처리) 과정보다는 분석에 초점.



벡터 - R의 최소 데이터 단위

프로그래밍에서 다루는 가장 작은 우너소 데이터는 스칼라이고 스칼라 집합이 벡터가 됨. (대부분 프로그램에서는 스칼라가 가장 작은 데이터 단위)
R에서 가장 작은 데이터 단위 (벡터) - R에서 1이라는 값은 정수 스칼라 1이 아니라 벡터1입니다. 원소 한개만 있는 벡터

평균 / 분산 / 

여러개의 벡터 집합 -> 하나의 데이터프레임. => 데이터프레임을 대상으로 분석을 하게됨.

연속형변수 (numeric타입) : 실수까지 표현 가능
이산형변수 (integer타입) : 정수값 표현
순서/명목형 변수 (factor) 
character (문자열) 



출처: https://12bme.tistory.com/393?category=737765 [길은 가면, 뒤에 있다.]