|| (<-) || [Chap2] || BiologistsGuideToAnalysisOfDnaMicroarrayData || [Chap4] || (->) || '''Chap.3 Basic Data Analysis''' <> == Absolute Measurement == * several probe pairs for each gene ''probe pair : Perfect Matching oligo(PM) & Mismatching oligo(MM)'' ''Mismatching oligo : PM의 oligo 중 하나만 다르게 만들어 non-specific hybrid를 detect하기 위해 제작.'' * Early Affy Method * '''AvgDiffs = (sum of PM-MM) / N''' 각각의 gene들에 대해 AvgDiffs를 구하여 intensity로 사용 N : 전체 실험 probe pair 중 |Z|>3인경우를 제외한 것의 개수 * AvgDiffs가 Negative이거나 매우 작으면, 이는 * non-specific binding이거나 * target - absent이다 (즉 상보적인 mRNA가 존재하지 않음) * Li & Wong Method * probe-specific analysis $$ \Theta = \frac{\sum_{N} (PM_n - MM_n) * \Phi_n}{N} $$ : weighted AvgDiffs $$ \Phi_n $$ : weight or scaling factor : Q~ 각 experiment간의 replicate들 간의 비교를 통한 weight 선정?? : obtained by fitting a model to experiments - replicate간의 variation이 각각의 probe-pair 에 dependent함을 고려 == Scaling == * maintenance gene 이용 - House Keeping Gene 과 같이 Treatment 혹은 Condition의 변화에도 변함없는 발현정도를 보이는 유전자. -> 이를 이용하여 control과 sample의 expression level이 같은지를 체크한다. * 각 chip마다 사용된 전체 mRNA량이 constant하다는 전제에 실험값을 맞춤 즉, chip 1에서의 전체 intensity 합이 100이고 chip 2에서의 합이 500이라면, chip 1 각각의 intensity를 대략 5배씩 해줘야 한다. 이때 chip에 사용하는 gene의 개수가 많을 수록 reliable하다 (gene의 수가 적으면 적을수록, 전체적인 mRNA량이 적어서 적게 붙었는지, 아니면 정말 발현이 적게 된건지 구별이 가기가 힘들다.) * AvgDiffs의 상위, 하위 2%를 버림. 상위는 saturation문제, 하위는 non-specific문제로 생각됨. * Saturation에 대한 고려 * 심어져 있는 probe의 양이 정해져 있으므로 다른 유전자들에 비해 발현량이 월등히 많은 경우 saturation될 수도 있다. 즉, 발현량에 비례하여 linear하게 증가하는 게 아니라 sigmoid처럼 되어버린다는 것. * linear한 구간의 것들만이 앞에서 말했던 '전체 mRNA량 이 constant함'을 가정한 scaling이 가능하다. * 그래서 weakly, highly expressed 의 경우는 각각 따로 scaling을 하는 것이 바람직하다. * Li & Wong - use '''a piecewise linear running median''' Q~ ? * Author - use '''qspline''' - intensity의 누적 distribution을 3차방정식에 fitting하는 방식. ?? * amplification 과정에서 생기는 문제라면, (양쪽모두) unamplified에서의 해당 intensity를 차용한다. : 둘다 unamplified시의 결과를 scaling을 한 후 이용하므로 차용이 가능. * spike control method : 가장 위험한 방법. use as last resort. * heat shock이나 starvation과 같은 경우 전반적인 expression level의 변화가 있을 수 있다. : global effect 앞에서의 전체 발현량이 일정하다는 가정이 깨지므로 앞의 방법을 이용할 수 없게 된다. * 이럴때 foreign organism의 mRNA를 같은 량 도입한 후 이들을 scaling에 사용한다. * 그러나, foreign mRNA 첨가 전의 두 결과가 어느정도 comparable하다는 가정이 있어야 하는데 이를 확실할 수가 없으므로 위험하다. === Example : Linear and Nonlinear Scaling === * one factor scaling : for linear data & y-intercept = 0 Just multiply scaling factor. * multi factor scaling : non linear, non zero y-intercept의 경우 앞서 언급한 non-linear fit을 이용하여 curve의 각 segment들에 각각의 scale factor를 사용함. * How many factors should we use? scale factor의 개수가 많아질 수록 scale out 될 가능성이 높아진다. (안좋다..) == Detection of Outliers == hair, bubble, air등으로 인한 perturbance를 제거해야 한다. - t-Test를 이용하여 replicate들 간의 Standard Deviation을 기준으로 걸러낸다. 3.5에서 계속. == Fold Change == AvgDiffs값을 이용하여 expression level을 비교 -> up or down regulated 되었음을 판정. 이 때의 up or down regulation의 정도를 나타내는 척도로 Fold Change값이 사용된다. * Method 1 : Divide Fold Change = Sample / Control FC>1 : up-regulated FC<1 : down-regulated * 문제점 1 : AvgDiffs값이 0 or negative이면 성립되지 않음. Early Affy에서는 20미만의 값을 무조건 20으로 바꾸어서 계산하는 방식을 사용하기도 함. * 문제점 2 : scale의 반영이 asymmetric함 up의 경우는 : 1 ~ $$ \infty $$ 까지의 범위에서 표현되는 반면, down의 경우는 : 0 ~ 1 의 범위에서 표현됨 * Method 2 : AffyFold = $$ \frac{Sample-Control}{min(Sample,Control)} $$ + (1) +1 ''if S > C'' (2) -1 ''if S < C'' * discontinuous함 (-1,1)사이의 값이 없음. Fig 3.2 -> computing에 부적합함 * scale은 어느정도 symmetric해졌음. * Method 3 : LogFold - Logarithm을 사용 * log (Sample/Control) * log의 밑수는 중요하지 않음. 그러나 전체적으로 동일한 값을 사용해야 서로간의 비교가 가능함. == Significance == * significance : assess experimental errors * '''t-Test''' by repeat the experiment and measure the variation (both Sample and Control) t-Test는 '''두 집단'''의 mean과 variance를 이용하여 두 집단이 동일한 distribution으로 부터 비롯되었을 확률을 구하는 것임 - 이 확률이 P-value * Sample과 Control이 모두 반복실험을 했을 경우 - t-Test가 가능함 * Sample만 반복실험을 한 경우 : Sample의 replicates간의 Variation(S.D.) S(Sample)와 C(Control)간의 차이가 이보다 더 클수록 유의미 한 것으로 봄 (즉 S와 C의 결과가 다르다 -> expression 의 정도가 다르다.) ~= p-value가 낮다는 의미와 비슷. 하지만 이 경우 p-value는 구할 수 없음. * 그 외에도 데이터의 치환을 통해 false positive rate을 구할 수 있다고 함 : SAM Tusher의 논문 참조. Q~ * replication이 없는 실험은 mRNA의 sampling 과정에서의 분해 등 여러 오차 요인을 감수해야 함. * '''ANOVA''' - ''more than two conditions'' 여러 condition에서의 결과가 결국 같은 distribution으로부터 비롯된 것일 확률을 구하는 것. 즉 1-p는 다른 distribution으로부터 비롯된 것일 확률 = expression change가 일어난 확률 === Nonparametric Tests === * Wilcoxon/Mann-Whitney rank sum test * 각 group을 섞어 놓고 rank를 매긴 후, 각각의 group별로 다시 모아 순위의 합을 구한 다음 이를 이용하여 유의성을 검정. * normality를 가정하지 않고도 사용이 가능 : t-Test, ANOVA는 normality를 가정해야 함 * variance를 측정하지 않기 때문에, 적은 수의 replicate시에는 결과가 poor함. === Corretion for Multiple Testing === * P-value 0.01의 의미 : 1%의 오차한도 내에서 틀릴 가능성(false positive)이 있음을 뜻함. 100개의 Gene을 보는 경우 1개의 False Positive일 가능성이 있는 것임. 7000개의 Gene을 본다면? 70개의 False Positive의 가능성이 있는 것임. * 여러 개의 gene을 다루는 multiple testing의 경우, 이러한 특성을 고려하여 p-value threshold값을 가혹하게 잡을 필요가 있음. -> 이를 통해 p-value를 적절하게 제한함으로써 false positive의 개수를 제한할 수 있음 * Bonferroni correction (P-value) * (# of Genes) = (# of possible false positives) === Example I : t-Test and ANOVA === * t-Test Table 3.2 : replicate가 2개인 경우의 t-Test * P-value가 작을수록 A와 B사이에 차이가 있음 (즉 다른 distribution으로부터 비롯됨) {{http://bioinfo.sarang.net/moin/wiki/upload/stat_t3.gif}} {{http://bioinfo.sarang.net/moin/wiki/upload/stat_t5.gif}} * multiple test에 적용하는 Bonferonni correction * Gene a 의 경우 0.019 * 4(gene개수) = 0.076 >0.05이므로 유의성이 없음 * Gene b 의 경우 0.005 * 4(gene개수) = 0.02 <0.05이므로 유의성이 있음. 즉 A와 B간의 차이가 있음. * ANOVA Table 3.3 : 3개 이상의 group이 있는 경우 * 역시 4로 곱하여 Bonferroni correction을 수행 * Gene a, b 가 유의함 : 즉 3개 group중 '''적어도''' 하나가 다른 distribution을 따름. 즉 차이가 있음. === Example II : Number of Replicates === * Table 3.2, 3.3의 경우는 replicates가 2개인 경우였던 것임. * replicate의 수가 많을 수록 좋지만, 얼마나 많으면 되는가? 를 알기 위해 replicate의 수를 변화시켜가며 False Positive(이하 FP)와 False Negative(이하 FN)의 개수를 측정함. * Table 3.4 : by t-Test * Table 3.5 : by SAM (based on permutations of the data) * 상대적으로 FN이 FP보다 replicate 수에 영향을 많이 받음. * replication 개수를 낮춰도 P-value의 조정을 통해 FP의 정도를 조정가능한 반면, FN에는 치명적임. * How to avoid any False Negatives? (Q~) * 두 parameter에 종속적이다. * variance between replicates * the fold change threshold replicate의 variance에 따라 다르므로 각 상황에 specific함 * Fig 3.4 : 0.005 level의 alpha(significance ; false positive rate) 와 0.2 Prob의 beta(false negative rate)를 확보하기 위해서는, 얼만큼의 minimum fold change가 필요한가? * depend on 1) mean expression levels of replicates and 2) variance of replicates * expression level이 high할 수록, replicate간의 variance가 적을수록 작은 폭의 Fold Change만으로도 FN, FP가 적어진다. == Summary ==