WillardGibbs에 의해 만들어진 [[Statistics]]적 샘플링방법 [[Motif]]를 찾는 방법이라고 할 수 있다. sequence set이 주어졌을 때 statistically most probable motifs를 search 하고 motif의 적절한 width와 각 sequence에서 적절한 motif들의 개수를 찾는다. == 특징 == initial estimate가 정확할수록 outlier의 sequence내의 pattern의 위치는 더 정확해진다. optimal motif와 각각 seq의 motif 위치의 확률분포로 수렴한다. 이 방법은 복잡하고 다양한 [[Motif]]를 찾는데 다양하게 응용될 수 있다. : sequence similarity가 거의 없는 30 helix-turn-helix DNA-binding domains를 align하는데 사용되기도 한다. etc. == method == ex) seq:10개 single motif width:20 각 seq의 residue: 100 1개의 seq를 outlier로 제외시키고 9개만으로 align하여 계산한다 === step 1 === seq1이 GT...M in motif (20 base) TG...X not in motif (80 base) 인 경우 align된 sequences의 column1에 G가 3개 column2에 T가 1개인 경우, f_g,column1 = 3/9 = 0.33 f_t,column2 = 1/9 = 0.11 -> Q1 = 0.33 x 0.11 x ... x f_last base, column20 motif 아닌 곳에 G가 240개 , T가 180개 있다고 가정하면 f_g,background = 240/800 = 0.30 f_t,column2 = 180/800 = 0.225 -> P1 = 0.30x 0.225 x ... x flast base, background === step 2 === weight A1 = Q1/P1 <- 100-20+1개의 A를 계산 가능 normalizing A1 => A1/ (sum of 81 As ) 이것도 81개 계산 가능 가장 높은 weight를 가지는 위치가 motif의 위치라고 가정 이를 아까 제외시켰던 seq에 표시하고 그 motif와 다른 seq들의 motif와 다시 align . === step 3 === step 1부터 다시 반복 until motif 내의 각 column에서의 residue frequency가 더 이상 변하지 않을 때까지 (약 수 백번~수 천번)