SequenceHomologySearch - BioHackersNet

Contents

유사성검색을 사용한 서열분석
일반적 고려사항
SmithWatermanAlgorithm
FASTA
BLAST
Pattern Analysis

유사성검색을 사용한 서열분석

분자 생물학에서 유전자를 여러 방법들을 이용해 cloning하고 염기 서열을 결정하고 나면 이 유전자가 기존에 이미 밝혀진 유전자인지, 새로운 것인지, 단백질로 translation했을 때 어떤 ProteinStructure를 가지고 기능을 갖는지, 생물학적으로 어떤 의미가 있는지에 대한 의문을 가진다. 다행스럽게도 생물학자들은 자신들이 연구한 [Protein]의 AminoAcid 서열이나 [DNA]염기 서열들을 모두 모아 [Database]를 구축하였고, 이 [Database]를 검색해서 유사성있는 서열들을 얻음으로써 정보들을 얻을 수 있다.

초기의 유사성 검색 도구들이 Needelman & Wunch (1970)와 Sellers (1974)에 의해 개발되었다. (NeedlemanWunschAlgorithm) 이들은 비교할 서열들의 전체의 길이에 대한 "포괄적인 (global)" 유사성 점수를 계산하였다. (GlobalAlignment) 이러한 형태의 알고리즘은 다양화된 서열에 민감하지 않으므로 유사성 검색을 위해 사용될 방법들은 "지역적인 (local)" 유사성을 가지는 지역에 촛점을 맞추어야 한다. (LocalAlignment)

가장 광범위하게 사용되는 알고리즘은 SmithWatermanAlgorithm (1981), [BLAST] (1990)과 [FASTA] (1988)이다. SmithWatermanAlgorithm은 DynamicProgramming을 이용하여 전체 서열에서 유사성 검색을 수행하고, [FASTA]와 [BLAST]는 모든 가능한 배열들을 다 조사하지 않는 HeuristicAlgorithm을 이용한다. 실제 검색에 있어서 SmithWatermanAlgorithm이 [FASTA]나 [BLAST]보다 정확한 것으로 알려져 있다. 하지만 partial length sequence의 경우 유사한 결과를 만들어 낸다. 최근에 개발된 BLAST 2.0은 gap filling기능이 보강되어 입력한 서열 전체에서의 유사성을 보여주는 기능을 가지고 있다.

일반적 고려사항

ScoreMatrix : 두개의 서열 사이를 최적으로 배열하는것 (optimal alignment)는 간단치 않다. 가장 큰 점수를 가지는 배열(alignment)이 생물학적 의미를 가진다고 할 때 여러 개의 배열들 중에서 점수를 계산하는 방법이 필요하다. 아래 두개의 아미노산 배열을 보면,

a) TTYGAPPWCS (원본) b) TTYGAPPWCS (원본)
- TGYAPPPWS (DB) TGYAPPPWS (DB) (5개 일치) (5개 일치)

9개중 5개가 일치하므로 a와 b는 같은 점수일지라도 a는 상대적으로 보편적인 아미노산(A, P, S, T)만을 보존하고 있지만 b는 W, T와 같은 덜 보편적인 아미노산들이 보존되어 있다. 따라서 아미노산들 사이에 생물학적이나 화학적 관계를 반영하여 점수를 매겨야 한다. 측정행렬 (ScoreMatrix)은 두 서열을 비교할 때 각각의 아미노산이나 염기의 일치 혹은 치환될 확률을 각각 계산해 주는 행렬이다. 실제 서열의 비교에 측정행렬을 이용하므로 이 측정 행렬은 모든 서열 분석의 기본이 된다. DNA염기의 경우 A, T, G, C의 4가지 확률을 이용한 비교적 간단한 행렬로 simility를 이용한 Identity matrix와 Blast matrix등이 있으며, 단백질의 경우 20개의 확률로 20*20 행렬로 표현한 다양한 측정행렬들이 존재하게 된다.

Gap penalties : 서열비교시 삽입 혹은 삭제에 의해 생기는 gap에 얼마의 감점을 줄건가를 정하는 것으로 현재의 통계적 방법으로 정확한 해답은 없지만 여러가지 실험적 사실을 통해 처음 생기는 gap에 -10이나 -14, 다음으로 생기는 gap에 -2나 -4점을 주는것이 적당하다고 한다. 예를 들면 두 개의 서열 사이에 4개의 gap이 있고 -10, -2의 값을 적용하면 전체 gap penalty는 -10+3*(-2) = -16이 된다. 이렇게 다른 값을 적용하는 이유는 진화상에서 처음 gap이 생기기는 힘들지만 그 이후 연속적으로 생기는 gap은 처음에 비해 쉽게 생길 수 있다는 것을 의미한다.

SmithWatermanAlgorithm

FASTA와 BLAST에 비해 좀더 sensitive한 검색결과를 얻을 수 있으나 검색시간이 오래 걸림. See SmithWatermanAlgorithm

FASTA

BLAST

Pattern Analysis

진화적으로 conserverd된 region에 대한 검색의 필요성이 있다.

일반적인 유사성 검색 프로그램 (FASTA, BLAST등)들은 진화적으로 보존된 서열의 특정한 부분에 가중치를 두지 않으므로, 그 기능은 같으나 진화적으로 멀리 떨어진 두 단백질 (혹은 유전자)의 검색이 어렵다. 따라서 알려진 기능이 같은 서열들만을 모아 그 중 기능적으로 중요한 부분, 구조적으로 동일한 부분, 잘 보존된 부분들의 서열들만 모아 2차 DB구축 --> Pattern analysis에 이용.

[PROSITE]

: pattern과 profile을 사용한 2차 DB사용. 제공기관은 Swiss Institute of Bioinformatics (http://www.expasy.ch/sprot/prosite.html) Pattern의 검색은 sensitivity를 높일 수 있지만 상대적으로 profile 검색에 비해 낮은 selectivity를 가진다. 즉 임의의 서열을 이용하여 pattern과 profile을 검색하였을 때 pattern에서는 여러개의 결과가 나오지만 profile에서는 결과가 나오지 않을 수 있다. 이 경우 pattern의 결과보다는 profile의 결과가 더 신빙성이 크므로 pattern 검색에서 나온 결과는 false-positive 일 가능성이 있다.

[Blocks]

: Homologous한 단백질들은 특정 부분 보다는 전체적인 부분에서 유사성을 가지므로 주어진 서열들을 이용하여 BLOCK을 제작하여 COBBER sequence (최근에 개발된 유사성서열 검색 tool) 을 이용하여 유사성을 검색한다. 제공 기관은 Fred Hutchinson Cancer Recearch Center (http://www.blocks.fhcrc.org) 이다.

[PRINTS]

: 각각의 motif들이 일치하는 정도를 다시 계산하여 전체적인 유사성을 제시. 제공기관은 Department of Biochemistry and Molecular Biology University college London (http://www.biochem.ucl.ac.uk/bsm/abbrowser/)

BiologicalSequenceAnalysis