WillardGibbs에 의해 만들어진 [[Statistics]]적 샘플링방법

[[Motif]]를 찾는 방법이라고 할 수 있다. sequence set이 주어졌을 때 statistically most probable motifs를 search 하고 motif의 적절한 width와 각 sequence에서 적절한 motif들의 개수를 찾는다.

== 특징 ==

initial estimate가 정확할수록 outlier의 sequence내의 pattern의 위치는 더 정확해진다. optimal motif와 각각 seq의 motif 위치의 확률분포로 수렴한다.

이 방법은 복잡하고 다양한 [[Motif]]를 찾는데 다양하게 응용될 수 있다.
 : sequence similarity가 거의 없는 30 helix-turn-helix DNA-binding domains를 align하는데 사용되기도 한다. etc.


== method ==
ex) seq:10개 single motif width:20 각 seq의 residue: 100
1개의 seq를 outlier로 제외시키고 9개만으로 align하여 계산한다

=== step 1 ===
seq1이 GT...M in motif (20 base)
       TG...X not in motif (80 base)  인 경우
align된 sequences의 column1에 G가 3개 column2에 T가 1개인 경우,
          f_g,column1 = 3/9 = 0.33
          f_t,column2 = 1/9 = 0.11
->  Q1 = 0.33 x 0.11 x ... x f_last base, column20
motif 아닌 곳에 G가 240개 , T가 180개 있다고 가정하면
          f_g,background = 240/800 = 0.30
          f_t,column2 = 180/800 = 0.225
-> P1 = 0.30x 0.225 x ... x flast base, background

=== step 2 ===
weight A1 = Q1/P1 <- 100-20+1개의 A를 계산 가능
normalizing A1 => A1/ (sum of 81 As ) 이것도 81개 계산 가능
가장 높은 weight를 가지는 위치가 motif의 위치라고 가정
이를 아까 제외시켰던 seq에 표시하고 그 motif와 다른 seq들의 motif와 다시 align .

=== step 3 ===
step 1부터 다시 반복 until motif 내의 각 column에서의 residue frequency가 더 이상 변하지 않을 때까지 (약 수 백번~수 천번)