"계층 클러스터 분석"의 개념
여러 개의 비교 대상들을 놓고 성질이 비슷한 그룹을 군집화 하고 싶을 때, 사용할 수 있는 분석 방법이다. 방법은 간단하다.
1. 비교 공간 상에 위치한 대상 간의 거리를 구한다.
# 비교 공간 : 1차원-한 개의 비교 값, 2차원-두 개의 비교 값...
# 거리 : euclidean 거리(직선), cityblock(직각 거리) 등등..
2. 거리가 가장 짧은 두 대상을 합친다.
3. 합친 대상을 한 개의 그룹으로 설정, 모든 비교 대상이 한 개의 그룹이 될 때 까지 위의 작업을 반복한다.
# 그룹-그룹, 그룹-개인 간의 결합을 위해 다음과 같은 방법을 사용한다.
## Ward 법
그룹을 합쳤을 때 새로운 그룹의 중심 값과, 개개의 값의 거리의 합이 최소가 되는 그룹을 합친다.
## 군평균 법
A그룹과 B그룹을 합칠 때, A그룹 내의 모든 요소들과 B그룹 내의 모든 요소들의 거리의 평균 값이 가장 가까운 그룹을 합친다.
## 최단거리 법
A그룹과 B그룹을 합칠 때, 두 그룹 간에 최단거리를 지니는 요소의 거리를 기준으로, 가장 가까운 그룹을 합친다.
## 최장거리 법
A그룹과 B그룹을 합칠 때, 두 그룹 간에 최장거리를 지니는 요소의 거리를 기준으로, 가장 가까운 그룹을 합친다.
이 과정을 반복하고, 각 과정을 기록하여, 원하는 Clustering 구조를 나타내는 Step을 결정, 그 때의 군집화 정보를 이용한다.
어떤 거리를 사용할 지, 어떤 방법을 이용하여 결합할지, 어떤 step을 이용할지는 딱히 정해져 있지 않다. 센스와 시행착오가 필요한 부분이다. 물론, 특정 조건에서 좋은 결과를 얻을 수 있는 방법에 대해 연구되어지고 있지만, 정답은 정해져 있지 않다.
참고사이트) https://www.albert2005.co.jp/knowledge/data_mining/cluster/hierarchical_clustering
'공부 > 정보과학' 카테고리의 다른 글
[예제] 시계열 Data로부터 Mutual Information 구하기 (4) | 2018.08.18 |
---|---|
[개념] 정보 엔트로피와 그 친구들 (9) | 2018.08.04 |
[개념] 확률변수의 기대값, 분산, 공분산, 상관계수 (0) | 2018.07.03 |
[확률과정] 푸아송 과정 (13) | 2017.12.16 |
[확률] 최대 엔트로피 확률 분포 (Maximum entropy probability distribution) (0) | 2017.07.24 |
댓글