확률변수X의 기대값
확률변수X가 취할 수 있는 값
값 x의 출현확률
확률변수X의 분산
확률변수X가 취할 수 있는 값
확률변수X의 기대값(=E(X))
값 x의 출현확률
확률변수X, Y의 합의 기대값
확률변수X, Y의 합의 분산
공분산
고찰
x값이 x의 평균보다 클 때, y값이 y의 평균보다 크면 Cov(X, Y)는 양의 값을 가진다. 반대로 x값이 x의 평균보다 클 때, y값이 y의 평균보다 작으면 Cov(X, Y)는 음의 값을 가진다. 각각의 경우 그 정도가 크면 클 수록 Cov(X, Y)의 절대값은 증가한다.
x의 값과 y의 값이 전혀 상관 없을 때(독립관계), Cov(X, Y)는 0의 값을 가진다.
확률변수X, Y의 Pearson 상관계수
Pearson 상관계수는 공분산 Cov를 이용하여 -1 ~ 1의 상관 정도를 나타내는 값이다.
증명
임의의 실수 t에 대해 X+tY 라고 하는 확률변수를 생각해보자. 이 때 분산은 다음과 같이 나타낼 수 있다.
분산 값은 0 이상의 값을 가지므로, 임의의 실수 t에 대해 위의 식이 만족하기 위해서는 판별식이 다음과 같은 조건을 만족해야 한다.
상기의 Pearson 상관계수에 대입해보면 상관계수가 -1에서 1의 범위를 갖는 것을 알 수 있다.
고찰
상관계수는 1일 때 강한 양의 상관관계를, -1일 때 강한 음의 상관관계를 나타낸다. 0일 때는 상관이 없음을 나타낸다. 하지만, Pearson 상관계수는 선형적인 상관관계만을 논하므로, 실제 확률변수의 분포를 통해 2차함수와 같은 상관관계가 있는지 확인해볼 필요가 있다.
'공부 > 정보과학' 카테고리의 다른 글
[예제] 시계열 Data로부터 Mutual Information 구하기 (4) | 2018.08.18 |
---|---|
[개념] 정보 엔트로피와 그 친구들 (9) | 2018.08.04 |
[개념] 계층 클러스터 분석 (0) | 2018.04.11 |
[확률과정] 푸아송 과정 (13) | 2017.12.16 |
[확률] 최대 엔트로피 확률 분포 (Maximum entropy probability distribution) (0) | 2017.07.24 |
댓글