EST Clustering (일종의 FragmentAssembly)

EST서열의 LargeScaleSequencing할때 중간에 해야하는 과정중 하나.

cDNA library에서 랜덤하게 추출된 각각의 EST서열은 하나의 Gene혹은 여러개의 다양한 mRNA로 부터 만들어진다. 따라서, 여러개의 consensus한 부분들을 하나로 묶는 과정이 필요하다.

프로그램적으로, clustering 단계와 assembly 단계로 나뉘어진다. 따로 하는 이유는 메모리상 효율을 위해.

  1. clustering : MegaBlast, D2Cluster 등의 프로그램으로 유사한 서열들 모으기.

  2. assembly : Phrap, CAP3등으로 모아진 서열들 조립하기

이 과정은 생물정보학적으로 다음의 해결해야할 과제들이 있다.

  1. 모든 EST pairs간에 대해 PairwiseAlignment 를 수행하므로 인한 TimeComplexity

  2. 소스의 다양성에서 오는 차이점들에 의한 [SNP]및 AlternativeSplicing에 대한 고려

  3. LargeScaleSequencing의 높은 에러율 및 insertions, deletions

  4. vector 및 linker sequences 에 의한 오염
  5. Genome project보다 낮은 overlapping에 의한 degree of identify

Different clustering/assembly precedures have been proposed with associated resulting Database

관련정보

EstClustering (last edited 2013-07-23 19:46:12 by 61)

web biohackers.net