방명록질문을 옮겨왔습니다.
DnaMicroArray등의 실험결과를 계층적 [Clustering]할때 어떤 문제점이 있는가에 관한 논의입니다.
유전자 데이타를 가지고 계층적(hierarchical)군집분석을 할때에 생기는 문제점이 무엇인지여? 가령 hierarchical clustering의 단점을 연관시켜 보았을때 문제점을 어떻게 이해 할 수 있을까여?
ClusterAnalysis시 계층적군집분석 보다는 KMeans, SOM등이 더 많이 쓰이는데, 그 이유는 계층적군집분석은 처음에 한 브릿지로 연결되어버리면, 거기서 헤어나지 못하고 그냥 묻혀버리기 때문입니다. 즉, 최초의 얼마간 유사상때문에 묶이면, 그 이후 변화의 여지가 없다는 얘기죠. 따라서 유사한프로파일(기능)을 갖는 유전자를 놓칠 우려가 있습니다. --yong27 09/18
답변 감사합니다...그런데....유사한 프로파일을 갖는 유전자를 놓칠 우려가 있다고 했는데...직관적으로 잘 감이 안와서 그러는데,,,좀더 설명해주실 수 있을까여? 부탁드려여.... --wooga 09/19
주로, ClusterAnalysis에서 사용하는 데이터는 유전자별 프로파일입니다. 각각의 유전자별 발현양상이죠. 실험조건이 어떻게 어떻게 변화할때, 각각의 유전자들이 많이 발현되기도 하고, 적게 발현되기도 하는등의 변화 양상을 의미합니다. 여기서의 군집화는 발현양상이 비슷한 유전자들을 묶는거죠. 그렇게 하면, 발현양상이 비슷한 (예를들어, 저온에서 적게 발현되고, 고온에서 많이 발현되고.. 등등 따위의) 유전자들을 모을 수가 있는겁니다. 현재 과학수준으로, 약 50%의 유전자는 그 기능을 전혀 알지 못한다고 할 수 있고, 그런 유전자들의 경우, 기능이 알려진 다른 유전자와 같은 cluster로 묶이게 된다면, 그 기능이 유사할것이라고 예측할 수 있습니다. 발현패턴이 유사할 경우, BiologicalPathway등을 공유할 가능성이 높기때문입니다. 그것이 ClusterAnalysis의 기본이라고 할수 있고, 보통은 이렇게 말로 표현하기는 좀 어려운, 복잡한 상호관계등도 고려될 수 있으며, 네트워크도 유추해 낼 수 있습니다. 물론, 생물학적 지식의 바탕위에 좀더 복잡한 분석이 가능하게 됩니다. --yong27, 2003-09-22
한가지 궁금한게 있는데, UPGMA나 Neighbor-Joining과 같은 PhylogeneticTree를 그리는 여러 TreeReconstruction 방식들이 Hierarchical Clustering 방식에 포함이 되는건가요? 아니면 관계가 없는건가요? 갑자기 궁금해 지네요.. --indigoH
관계있지, 거의 같은 것이라고 보면 됨. 위 질문은 유전자 발현양상으로 군집화했지만, 네 질문은 서열상동성으로 군집화했다는거고, 서열이 유사할수록 한 클러스터로 묶인다고 보면 됨. --yong27, 2003-09-23
뭐 NJ나 Hierarchical Clustering방식이나 가까운 거리에 있는 노드끼리 묶인다는 점에선 비슷한 거라고 볼 수도 있는데, NJ는 상하관계가 없고 Hierarchical은 상하관계가 있잖아. 게다가 TreeRecostruction(?)은 각 Generation간에 얼마나 멀리 떨어져 있는지 길이가 표시되는데 Hierarchical은 그런 개념이 아에 없잖아. 그런 면에선 다른 것 같은데. --destine, 2003-09-24