(<-) |
[Chap3] |
[Chap5] |
(->) |
Chap.4 Visualization by reduction of dimensionality
Contents
6000 genes of 15 patients -> 6000*15 matrix
dimension을 줄여야 할 필요성이 있음 (visualize -> analysis)
- Dimension을 줄여 분석할 수 있는 방법
- Correspondence Analysis
- Singular Value Decomposition
- Multidimesional Scaling
- Cluster Analysis
PrincipalComponentAnalysis
- 15*6000
- gene 1 : (patient 1, patient 2, patient 3, patient 4, patient 5, ... , patient 15) gene 2 : (patient 1, patient 2, patient 3, patient 4, patient 5, ... , patient 6)
- ..
==> 15 dimension 위의 6000개의 점으로 표시될 수 있다. 이 점들을 잘 설명할수 있는 2개의 axis를 잡는 것이 PCA법이다.
- gene 1 : (patient 1, patient 2, patient 3, patient 4, patient 5, ... , patient 15) gene 2 : (patient 1, patient 2, patient 3, patient 4, patient 5, ... , patient 6)
- 여기서는 15 dimensions의 중점을 지나고, 각 gene에 해당하는 점들의 variation을 maximum 하게 보여주는, 즉 $$ \sum d^2 $$ 이 minimal한 axis를 Principal Component 1 (이하 PC1)으로 정함.
- 그리고 PC1에 독립적인, 즉 직각인 평면 상에 있는 직선들 중, 6000개의 gene에 대해 가장 잘 설명할 수 있는 (maximal variation) axis를 PC2로 선정
- 이 두 axis 즉, PC1, PC2를 각각 x, y좌표로 놓고 6000개의 gene들을 투영한다.
- 이 좌표들을 보면 전체적인 trend를 알 수 있는 데, 여기서부터의 해석에 Biological Knowledge가 사용이 되게 된다.
- 각 PC에 기여도가 높은 Axis(15개의 환자 axis중)를 알아보기 위해 이들 15 axis들을 2개의 PC가 이루는 평면으로 투영한다.
- cluster analysis가 다른 측면을 설명해 줄 수도 있다.
- PCA와 함께 t-Test, ANOVA 등을 이용하여 cutoff size 즉 pick-up하여 분석할 gene의 개수를 산정할 수 있다.
Example 1 : PCA on Small Data Matrix
Fig 4.2 : 6 patients를 축으로 함 -> PCA
- PC1
- Patient B Category에 의해 가장 큰 영향을 받음.
- 그런데 B는 gene들간의 expression이 가장 differ함
- Patient B1의 축으로 보면 gene의 rank가 c, a, d, b 순임.
- PC2
Patient subcategory 2(A2, B2, C2) > Patient subcategory 1(A1, B1, C1)인가의 여부에 따라 +, -가 결정됨.
B에서 d가 유일하게 B1>B2임.
- PC1은 각 gene a,b,c,d간의 variation의 기준이 되고, PC2는 Patient subgroup 간의 크기 방향성의 기준이다.
- PC1
Example : PCA Simple Example
- Step 1 : real data
- Step 2 : Normalization - centroid를 원점으로 놓고, 각 축마다 해당 SD로 각각의 값들을 나눠줌.
- Step 3 : PC1, PC2의 결정
- Step 4 : Projection