BiologicalSequenceAnalysis에서 SequenceAlignment의 한 방법. ||<>|| == Introduction == high quality MultipleAlignment가 필요 -> ''[[Protein]] sequence 진화에 대한 전문적 지식''( comes from experience )을 이용하여 수동으로 진행 some factor - specific sorts of columns in alignment (highly conserved residue or hydrophobic residue)-> secondary, tertiary structure에 영향 - B-sheet에서의 hydrophobic과 hydrophilic - insertion and deletion pattern RNA alignment sequence에서 추론된 alignment는 2차 구조 model에서 많이 다를 수 있다. automatic method 높은 점수를 갖는 MultipleAlignment를 찾음 여기서는, - 구조적, 진화적으로 multiple sequence alignment method -> ProfileHmm에 의한 full probabilistic multiple alignment로 접근.. - other method & ProfileHmm을 비교 == What a multiple alignment means == homologous residue( structurally & evolutionally sense)- align in column -> 유사한 3차 구조적인 위치와, common ancestor로 부터 분화 '''Fig 6.1''' Ig superfamily sequences : manually alignment based on expert structural knowledge. highly identical seq.의 경우를 제외하고는, 구조적, 진화적 위치에 대한 identify와 correct' MultipleAlignment를 하는 것은 not possible. → protein 구조는 진화하기 때문에 서로 다른 서열을 가진 2개의 protein을 align하기는 어려움 '''Fig.6.2''' -Chothia&Lesk, 1986 - 여러개의 다른 protein family에서 pairwise structural alignment를 조사 +- 30% identical +- only 50% of the individual residues were superposable in the two structures +- in principle - even if the structure diverge-명백히 correct evolutionary alignment가 있다. +- in practicle - 진화적으로 맞는 alignment는 structural alignment보다 어렵다. (evolution history not known) case of interest - 30% average pairwise seq.를 갖는 protein family '''keep in mind - there is no objective way to define an unambiguously correct alignment''' == Scoring a multiple alignment == 1. scoring system * position-specific scoring * sequences are not independent, related by phylogenic tree 1. evolutionary model is very complex * Evolutionary change 의 확률은 natural selection 에 의한 position-specific structural and functional 제약 뿐 아니라 evolutionary time 에 의존한다. * 이러한 모델 하에서 high-probability alignment 는 good structural and evolutionary alignment 가 될 것이다. 1. alignment의 개개의 column은 통계학적으로 independent 하다고 가정 * scoring function {{{ S(m)=G + ∑S(mi) S(mi) = score for column G = a function for scoring the gaps that occur in the alignment mi = column i of the multiple alignment m }}} * if gap을 하나의 residue로 처리할 경우 S(m) = ∑S(mi) but gap residue를 독립적으로 처리 하지 않음 === Minimum entropy === Cia=∑δ(mij=a) → column i에서 'a' 가 관찰된 것을 계산 P(mi) = ∏ Pia^Cia (6.2) (Pia = column i 에서 residue a 의 확률) a S(mi) = -∑Cia log Pia (6.3) (align 된 residue의 column에서 관찰된 다양성의 측정) 다양한 column - higher entropy * completely conserved column - entropy '0' * Good Alignment 는 total entropy를 최소화 하는 것 실제적으로 우리는 PseudoCount 나 DirichletPrior 로 normally regularize 한다. === Sum of pairs:SP scores === column 들은 SubstitutionMatrix 를 이용한 ''' sum of pairs ''' column의 SP score는 S(mi) = ∑ S(mi-k, mi-l) PAM or BLOSUM의 SubstitutionMatrix로부터 온 값 MultipleAlignment = '''''three-way alignment''''' , log(Pabc/QaQbQc) There is no probabilistic justification of the SP score ; each sequence is scored as if it descended from the N-1 other sequences instead of a single ancestor. SpScoreExampleInMultipleAlignment == Multidimensional dynamic programming == column들은 -statiscally independent - gap cost γ(g) =gd g=gap length, d= gap cost (6.7)의 식과 (6.8)의 식을 plus = (6.9) 2^N -1 DynamicProgramming algorithm sequence length = L SpaceComplexity '''O(L^N)''' TimeComplexity '''O(2^N L^N)''' '''Exercise 6.1''' number of sequence - 50 residues two - seq.를 pairwise align 하는데 0.5 sec 소요 4개의 seq.를 alignment 하는데 (2L)^N-2=10^4 sec ( a few hours) unlimited memory, five billion years( = 50억년) ''how many sequence could our computer align?'' ---> about '''10''' sequence === MSA === Multidimensional DynamicProgramming 의 volume을 줄이는 algorithm을 사용 적절한 length(200~300 residues)의 5~7 protein sequence를 optimally align {{{ a^kl: pairwise alignment between sequence k and l a^ ^kl: optimal pairwise alignment of k, l S(a) = ∑{k