OpenReadingFrame

1차원적인 [DNA]서열을 보고, [Protein] 코딩부분을 예측할 수 있다. 여기서의 코딩부분은 start codon 부터 stop codon까지. 이러한 [Gene] 후보들을 OpenReadingFrame [ORF]라고 한다.

일반적으로 같은 stop codon을 사용하나 다른 start codon을 쓰는 많은 overlapping ORF가 있으며, 여기서 Maximal ORF를 ORF라고 칭하기도 한다.

따라서, 하나의 real gene에는 여러개의 ORF가 있을 수 있다. 여기서 non-coding ORF와 real gene를 구분하는 것이 생물정보학적 문제에 해당되며, High order MarkovChain등이 사용된다.


Prokaryotic ORF prediction

Ab initio (intrinsic) prediction

  1. GeneMark (Borodovsky and McIninch 1993)

  2. ECOPARSE (Krogh et al. 1994)
  3. GeneHacker (Yada and Hirosawa 1996)

  4. GeneMark HMM (Lukashin and Borodovsky 1998)

  5. GLIMMER (Salzberg et al. 1998; Delcher et al. 1999)
  6. GeneMarkS (Besemer et al. 2001)
  7. EasyGene (Larsen and Krogh 2003)

  8. ZCURVE (Guo et al. 2003)
  9. GeneLook (Nishi et al. 2005)

Homology-base (extrinsic) prediction

  • Homology search algorithm
    • - BLASTN : genome to genome - BLASTX : genome to proteome - TBLASTN : genome to genome after translation - FASTX : genome to proteome - FASTY : genome to proteome
  • Reference database
    • - Swiss-Prot - Uniprot - Refseq protein - Nr

Integration of ab initio (intrinsic) and homology-based (extrinsic) predictions

  1. ORPHEUS (Frishman et al., 1998)
    • - DPS (Dna-Protein Search) against the Nr database
  2. Critica (Badger and Olsen 1999)
    • - BLASTN against the related genome chosen by the user
  3. FrameD (Schiex et al., 2003)
    • - BLASTX output provided by the user
  4. YACOP (Tech and Merkl 2003)
    • - Integration of Critica, Glimmer and Zcurve
web biohackers.net