본문 바로가기
공부/정보과학

[개념] 계층 클러스터 분석

by 죠옹 2018. 4. 11.

 "계층 클러스터 분석"의 개념


 여러 개의 비교 대상들을 놓고 성질이 비슷한 그룹을 군집화 하고 싶을 때, 사용할 수 있는 분석 방법이다. 방법은 간단하다. 


1. 비교 공간 상에 위치한 대상 간의 거리를 구한다.

# 비교 공간 :  1차원-한 개의 비교 값, 2차원-두 개의 비교 값...

# 거리 :  euclidean 거리(직선), cityblock(직각 거리) 등등..


2. 거리가 가장 짧은 두 대상을 합친다.


3. 합친 대상을 한 개의 그룹으로 설정, 모든 비교 대상이 한 개의 그룹이 될 때 까지 위의 작업을 반복한다.

# 그룹-그룹, 그룹-개인 간의 결합을 위해 다음과 같은 방법을 사용한다.

## Ward 법

그룹을 합쳤을 때 새로운 그룹의 중심 값과, 개개의 값의 거리의 합이 최소가 되는 그룹을 합친다.

## 군평균 법

A그룹과 B그룹을 합칠 때, A그룹 내의 모든 요소들과 B그룹 내의 모든 요소들의 거리의 평균 값이 가장 가까운 그룹을 합친다.

## 최단거리 법

A그룹과 B그룹을 합칠 때, 두 그룹 간에 최단거리를 지니는 요소의 거리를 기준으로, 가장 가까운 그룹을 합친다.

## 최장거리 법

A그룹과 B그룹을 합칠 때, 두 그룹 간에 최장거리를 지니는 요소의 거리를 기준으로, 가장 가까운 그룹을 합친다.


이 과정을 반복하고, 각 과정을 기록하여, 원하는 Clustering 구조를 나타내는 Step을 결정, 그 때의 군집화 정보를 이용한다.


 어떤 거리를 사용할 지, 어떤 방법을 이용하여 결합할지, 어떤 step을 이용할지는 딱히 정해져 있지 않다. 센스와 시행착오가 필요한 부분이다. 물론, 특정 조건에서 좋은 결과를 얻을 수 있는 방법에 대해 연구되어지고 있지만, 정답은 정해져 있지 않다.


 참고사이트)  https://www.albert2005.co.jp/knowledge/data_mining/cluster/hierarchical_clustering

반응형

댓글