WillardGibbs에 의해 만들어진 Statistics적 샘플링방법
Motif를 찾는 방법이라고 할 수 있다. sequence set이 주어졌을 때 statistically most probable motifs를 search 하고 motif의 적절한 width와 각 sequence에서 적절한 motif들의 개수를 찾는다.
특징
initial estimate가 정확할수록 outlier의 sequence내의 pattern의 위치는 더 정확해진다. optimal motif와 각각 seq의 motif 위치의 확률분포로 수렴한다.
이 방법은 복잡하고 다양한 Motif를 찾는데 다양하게 응용될 수 있다.
- : sequence similarity가 거의 없는 30 helix-turn-helix DNA-binding domains를 align하는데 사용되기도 한다. etc.
method
ex) seq:10개 single motif width:20 각 seq의 residue: 100 1개의 seq를 outlier로 제외시키고 9개만으로 align하여 계산한다
step 1
seq1이 GT...M in motif (20 base)
- TG...X not in motif (80 base) 인 경우
align된 sequences의 column1에 G가 3개 column2에 T가 1개인 경우,
- f_g,column1 = 3/9 = 0.33 f_t,column2 = 1/9 = 0.11
-> Q1 = 0.33 x 0.11 x ... x f_last base, column20 motif 아닌 곳에 G가 240개 , T가 180개 있다고 가정하면
- f_g,background = 240/800 = 0.30 f_t,column2 = 180/800 = 0.225
-> P1 = 0.30x 0.225 x ... x flast base, background
step 2
weight A1 = Q1/P1 <- 100-20+1개의 A를 계산 가능 normalizing A1 => A1/ (sum of 81 As ) 이것도 81개 계산 가능 가장 높은 weight를 가지는 위치가 motif의 위치라고 가정 이를 아까 제외시켰던 seq에 표시하고 그 motif와 다른 seq들의 motif와 다시 align .
step 3
step 1부터 다시 반복 until motif 내의 각 column에서의 residue frequency가 더 이상 변하지 않을 때까지 (약 수 백번~수 천번)