Clustering - BioHackersNet

군집화. 데이타의 물리적 혹은 추상적 객체를 비슷한 객체군으로 묶는 과정. ClusterAnalysis. MultivariateAnalysis의 한가지.

대량의 데이타들로 부터 쉽게 드러나지 않는 유용한 정보를 추출하는 과정을 통계학 용어로 DataMining이라고 한다. 이 DataMining에는 여러가지 기법들이 있는데 Clustering도 그 중 하나이다.

실제 최근의 급격한 정보량의 증가는 이를 효과적으로 분류해야하는 과제를 낳는데, 이 분류과정, 군집과정을 통해서 데이타들의 성격 및 유용정보발굴을 해낼 수 있고, 이는 경영학, 정보공학, 생물정보학등의 분야에서 많이 활용된다.

특히도, 생물정보학분야에서는 최근의 HTS(HighThroughPut Screening, 대용량실험)실험기법의 발달로 방대한 데이타를 얻는일이 용이해졌으며, 이에 따라 이 방대한 데이타를 효과적으로 분석할 수 있는 다양한 방법들이 시도되고 있으며 Clustering은 그 한 방법으로, 많은 유용정보들을 제공한다.

Contents

접근방법
Clustering 기법들
두Node 사이의 거리를 구하는 방법
예제

접근방법

실제, N개의 객체들을 p개의 변수 각각에 대해 얻은 관찰결과가 크기 (N × p) 자료행렬로 주어졌다고 할 때, 각 객체의 관찰값에 대응되는 한 행벡터(row vector)는 p-차원 공간에서 한 개의 점으로 생각될 수 있다. 이때 이 P-차원 공간에 N개의 점(또는 N개의 관찰값)들이 전체 공간에 걸쳐 랜덤하게(randomly) 흐트러져 있는지, 혹은 어떤 의미의 조밀성을 가지고 군집(cluster)을 이루고 있는지에 관한 정보를 가진다는 것은 다변량자료에 대한 구조적 단순화 내지 요약이라는 측면에서 매우 중요한 의미를 갖게된다.

이러한 군집분석을 사용한 예들로는

ComputerScience - 문헌분류, NaturalLanguageProcessing을 이용한 정보검색
생물분류 - 생물을 특성에 따른 생물분류 혹은 진화적연관관계 규명을 위한 생물분류
Gene ExpressionProfile - 유전적발현정도에 따른 유사유전자분류
의학-증세에 따라 분류된 환자에 대한 처방의 결정
심리학-성격유형에 따른 개인들의 분류
인류학-석기(stone tools)나 화석등에 근거한 문화발찰과정

위와 같은 군집분석의 이용은 같은 군집에 속한 객체들끼리는 어떤 종류의 밀접한 상사성이, 그리고 서로 다른 군집에 속한 객체 사이에는 상대적 비상사성이 존재하는 것을 원칙으로 한다. 따라서, 각 객체가 군집의 갯수, 내용, 구조 등이 사전에 정의되지 않은 상황하에서 군집의 구성원이 됨을 객체 사이의 '상사성'(또는 비상사성)에 근거하여 식별함으로써 전체 다변량자료의 구조를 파악하고, 군집의 형성과정과 그 특성, 그리고 식별된 군집간의 관계등을 체계적으로 연구, 분석하는 과정의 총체를 군집분석의 목적이라 할 수 있겠다. 이와 같이 군집분석은 군집들의 갯수나 구조에 관한 아무런 가정없이 객체들 사이의 상사성 또는 거리(비상사성)에 근거하여 '자연스러운' 군집을 찾고 나아가 자료의 요약을 꾀하는 원시적이고 탐색적인 통계방법이다. 이러한 군집분석과정은 요약해서 다음 4단계로 말할 수 있다.

N개의 객체에 대해 P개의 변수를 관찰하여 크기 (N × p)인 자료행렬을 구한다.
N개의 객체 사이의 크기 (N × N)인 상아(또는 비상사)행렬을 계산한다.
상사(또는 비상사)행렬에 근거하여 서로 배반적이거나, 계보적인 군집들을 형성한다.
각 군집의 성격이나 상호관계를 파악한다.

군집의 유형은 대체로 다음과 같이 나눠 생각할 수 있다.

상호배반적(disjoint) 군집 - 각 객체가 상호배반적인 여러 군집중 어느 하나에 만 속함.
계보적(hierarchical) 군집 - 한 군집이 다른 군집의 내부에 포함되나 군집간의 중복이 허용되지 않고 가계보 혹은 나무모양의 형식을 취함. SeeAlso ProblemOfHierarchicalClustering
중복(overlapping) 군집 - 두 개 이상의 군집에 한 객체가 동시에 소속됨 을 허 용함.
Fuzzy 군집 - 각 객체가 각 군집에 속할 확률이나 자격을 어떤 지표로 규정하는데, 이는 상호배반적, 계보적, 중복 등의 어느 형태를 취할 수 있음.

Clustering 기법들

AverageLinkage (UPGMA) : 인접데이타가 유사한것(거리가 가까운것)끼리 묶고 그 평균값을 사용하는 형태로 Hierarchical Cluster 정보 제공
- 그외에 최소값을 사용하는 SingleLinkage, 최대값을 사용하는 CompleteLinkage가 있다.
KMeans : SimulatedAnnealing 응용
SOM

두Node 사이의 거리를 구하는 방법

각 노드간의 거리를 구하는 방법은 주로 다음의 방법들이 쓰인다. 각각 장단점이 있다.

예제

ClusteringExample : EuclideanDistance를 사용한 AverageLinkage method의 유전자 발현패턴 Clustering

SubsetsOfBioinformatics Statistics