본문 바로가기

공부/정보과학15

[예제] 시계열 Data로부터 Mutual Information 구하기 지난번 글에 정보 엔트로피를 공부에 이어, Mutual Information을 구하는 예제를 작성해보고자 한다. Mutual Information은 두 확률 변수의 관계를 통해 압축될 수 있는 정보량이다. 간단히 복습해보자. 확률변수 X, Y가 있을 때 Mutual Information I(X;Y)는 다음과 같다. Joint Entropy H(X,Y)는 X, Y가 독립일 때 H(X)+H(Y)의 값을 가진다. 고로, Mutual Information은 X, Y가 독립일 때보다 감소한 불확실성을 나타낸다. Mutual Information은 확률변수 X와 Y를 엮을 수 있는 모든 상황에서 사용이 가능하다. 그 중 대표적인 것은 시계열 Data이다. 시계열 문제는 "시각 t 에 측정된 측정값 x, y 값의 관.. 2018. 8. 18.
[개념] 정보 엔트로피와 그 친구들 엔트로피는 무질서도라고도 불리며, 불확실한 정도를 나타낸다. 엔트로피는 계가 가질 수 있는 상태의 수에 의존하며 계가 가질 수 있는 상태가 1가지 일 때 0, 즉 확실한 상태가 된다. 오늘은 엔트로피의 친구들 정보량, 엔트로피(Entropy), 결합 엔트로피(Joint Entropy), 조건부 엔트로피(Conditional Entropy), 상호 정보량(Mutual Information), Transfer Entropy들을 간단하게 정리해보려 한다. 모두 샤넌이 정의한 정보량에서 파생하는 개념으로, 얼마나 불확실한지 정량적으로 판단하는 근거를 제시한다. 정보량 N종류의 사건 (예: 맑은날, 비오는날)사건이 발생할 확률 (예: 맑은날 90%, 비오는날 10%) 단위bit (log의 밑이 2일 때)nat (.. 2018. 8. 4.
[개념] 확률변수의 기대값, 분산, 공분산, 상관계수 확률변수X의 기대값 확률변수X가 취할 수 있는 값 값 x의 출현확률 확률변수X의 분산 확률변수X가 취할 수 있는 값 확률변수X의 기대값(=E(X)) 값 x의 출현확률 확률변수X, Y의 합의 기대값 확률변수X, Y의 합의 분산 공분산 고찰 x값이 x의 평균보다 클 때, y값이 y의 평균보다 크면 Cov(X, Y)는 양의 값을 가진다. 반대로 x값이 x의 평균보다 클 때, y값이 y의 평균보다 작으면 Cov(X, Y)는 음의 값을 가진다. 각각의 경우 그 정도가 크면 클 수록 Cov(X, Y)의 절대값은 증가한다. x의 값과 y의 값이 전혀 상관 없을 때(독립관계), Cov(X, Y)는 0의 값을 가진다. 확률변수X, Y의 Pearson 상관계수 Pearson 상관계수는 공분산 Cov를 이용하여 -1 ~ 1.. 2018. 7. 3.
[개념] 계층 클러스터 분석 "계층 클러스터 분석"의 개념 여러 개의 비교 대상들을 놓고 성질이 비슷한 그룹을 군집화 하고 싶을 때, 사용할 수 있는 분석 방법이다. 방법은 간단하다. 1. 비교 공간 상에 위치한 대상 간의 거리를 구한다.# 비교 공간 : 1차원-한 개의 비교 값, 2차원-두 개의 비교 값...# 거리 : euclidean 거리(직선), cityblock(직각 거리) 등등.. 2. 거리가 가장 짧은 두 대상을 합친다. 3. 합친 대상을 한 개의 그룹으로 설정, 모든 비교 대상이 한 개의 그룹이 될 때 까지 위의 작업을 반복한다.# 그룹-그룹, 그룹-개인 간의 결합을 위해 다음과 같은 방법을 사용한다.## Ward 법그룹을 합쳤을 때 새로운 그룹의 중심 값과, 개개의 값의 거리의 합이 최소가 되는 그룹을 합친다.## .. 2018. 4. 11.
[확률과정] 푸아송 과정 확률과정이라는 말과의 거리감을 줄이기 위해 예를 먼저 들어보자. 이메일의 착신수, 교통사고, 신축주택수, 외국인의 유입수, 서비스 창구 대기인원수.... 등등 한 시점에 관측을 시작하여, 시간이 지날수록 발생횟수가 변화해 나가는 과정을 확률과정을 통해 생각해볼 수 있다. 관측을 시작한 시점을 't=0'로 두고, 발생횟수를 'N(t)'로 두어, 발생횟수에 대해 분석해 나간다. 오늘은 확률과정 중 한 시점에 사상의 확률이 직전의 결과에만 영향을 받는 확률과정인 마루코프 과정, 그 중에서도 푸아송 과정에 대해 정리해 보려고 한다. 푸아송 과정은 정해진 시간 t내에 사건이 k번 발생할 확률을 나타내는 분포가 푸아송 분포로 나타나는 과정이다. 지금부터 푸아송 과정의 네가지 성질과, 이로인해 사건의 발생확률이 푸아.. 2017. 12. 16.
[확률] 최대 엔트로피 확률 분포 (Maximum entropy probability distribution) 최대 엔트로피 확률 분포 라고 함은 여러가지 조건 하에서 최대 엔트로피를 만족하는 분포들이다. 기존 블로그에서는 주로 볼츠만 분포를 다뤄왔다. 볼츠만 분포는 주어진 총량 속에서 최대엔트로피를 만족하는 분포이다. 볼츠만 분포는 라그랑즈 승수법을 통해 최대 엔트로피를 계산한다. 라그랑주 승수법은 제약조건이 있는 최적화 문제를 방법으로서, 라그랑주 승수법을 이용한 볼츠만 분포는 엔트로피 값에 총에너지와 총입자수를 더한 값의 미분값이 0이 되는 지점을 찾음으로서 구해진다. 여기선 제한조건이 총에너지와 총입자수 인 것이다.(참고: http://joonyoungsun.tistory.com/entry/Boltzmann-%EB%B6%84%ED%8F%AC%EC%8B%9D-Boltzmann-Distribution) 지금까.. 2017. 7. 24.