본문 바로가기
공부/정보과학

[개념] 확률변수의 기대값, 분산, 공분산, 상관계수

by 죠옹 2018. 7. 3.

확률변수X의 기대값


 


    확률변수X가 취할 수 있는 값

    값 x의 출현확률





확률변수X의 분산


 

    확률변수X가 취할 수 있는 값

    확률변수X의 기대값(=E(X))

    값 x의 출현확률





확률변수X, Y의 합의 기대값


 






확률변수X, Y의 합의 분산


 


공분산

 

고찰

 x값이 x의 평균보다 클 때, y값이 y의 평균보다 크면 Cov(X, Y)는 양의 값을 가진다. 반대로 x값이 x의 평균보다 클 때, y값이 y의 평균보다 작으면 Cov(X, Y)는 음의 값을 가진다. 각각의 경우 그 정도가 크면 클 수록 Cov(X, Y)의 절대값은 증가한다.

 x의 값과 y의 값이 전혀 상관 없을 때(독립관계), Cov(X, Y)는 0의 값을 가진다.





확률변수X, Y의 Pearson 상관계수


 


Pearson 상관계수는 공분산 Cov를 이용하여 -1 ~ 1의 상관 정도를 나타내는 값이다.


증명

 임의의 실수 t에 대해 X+tY 라고 하는 확률변수를 생각해보자. 이 때 분산은 다음과 같이 나타낼 수 있다.

 

 분산 값은 0 이상의 값을 가지므로, 임의의 실수 t에 대해 위의 식이 만족하기 위해서는 판별식이 다음과 같은 조건을 만족해야 한다.

 

 상기의 Pearson 상관계수에 대입해보면 상관계수가 -1에서 1의 범위를 갖는 것을 알 수 있다.


고찰

 상관계수는 1일 때 강한 양의 상관관계를, -1일 때 강한 음의 상관관계를 나타낸다. 0일 때는 상관이 없음을 나타낸다. 하지만, Pearson 상관계수는 선형적인 상관관계만을 논하므로, 실제 확률변수의 분포를 통해 2차함수와 같은 상관관계가 있는지 확인해볼 필요가 있다.



반응형

댓글