데이터 용어 정리

2021. 5. 3. 01:36 Big Data/빅데이터

분산:

하나의 변수가 변수의 평균에서 얼마나 멀리 떨어져 있는지 계산

 

공분산:

두 변수가 각각의 평균에서 얼마나 멀리 떨어져 있는지

 

심슨의 역설:

혼재변수(confounding variables)가 누락되어 상관관계가 잘못 계산되는 심슨의 역설(simp son’s paradox)을 흔히 직면하게 된다. 

예) 미국 서부, 동부 과학자 친구수 (석사, 박사에 따라 수가 다르고…)

 

베이즈 정리:

조건부 확률을 반대로 뒤집는 ‘베이즈 정리’ 

 

(조건부확률 ) 사건 E가 발생했다는 가정하에, 사건 F가 발생할 확률만 주어졌을때,

(베이즈 정리) 사건 F가 발생했다는 가정하에, 사건 E가 발생할 확률은?

 

P(E|F) = P(E,F)/P(F) = P(F|E)P(E)/P(F)

 

사건 F = 사건F와 사건 E가 모두 발생하는 경우 + 사건 F는 발생하지만 사건 E는 발생하지 않는 경우

P(F) = P(F,E) + P(F,^E)

 

베이즈정리 = P(E|F) = P(F|E)P(E) / [P(F|E)P(E) + P(F|^E)P(^E)]

 

확률변수:

확률변수(random variable) 특정 확률분포와 연관되어 있는 변수

 

모델:

가장 적합한(best) 모델이란? 모델의 오류(error)를 최소화하는 또는 likelihood(우도)를 최대화 하는 것을 의미한다.

 

출처 : ourcstory.tistory.com/222?category=643554