1차원적인 [DNA]서열을 보고, [Protein] 코딩부분을 예측할 수 있다. 여기서의 코딩부분은 start codon 부터 stop codon까지. 이러한 [Gene] 후보들을 OpenReadingFrame [ORF]라고 한다.
일반적으로 같은 stop codon을 사용하나 다른 start codon을 쓰는 많은 overlapping ORF가 있으며, 여기서 Maximal ORF를 ORF라고 칭하기도 한다.
따라서, 하나의 real gene에는 여러개의 ORF가 있을 수 있다. 여기서 non-coding ORF와 real gene를 구분하는 것이 생물정보학적 문제에 해당되며, High order MarkovChain등이 사용된다.
Prokaryotic ORF prediction
Ab initio (intrinsic) prediction
- ECOPARSE (Krogh et al. 1994)
GeneHacker (Yada and Hirosawa 1996)
GeneMark HMM (Lukashin and Borodovsky 1998)
- GLIMMER (Salzberg et al. 1998; Delcher et al. 1999)
- GeneMarkS (Besemer et al. 2001)
EasyGene (Larsen and Krogh 2003)
- ZCURVE (Guo et al. 2003)
GeneLook (Nishi et al. 2005)
Homology-base (extrinsic) prediction
- Homology search algorithm
- - BLASTN : genome to genome - BLASTX : genome to proteome - TBLASTN : genome to genome after translation - FASTX : genome to proteome - FASTY : genome to proteome
- Reference database
- - Swiss-Prot - Uniprot - Refseq protein - Nr
Integration of ab initio (intrinsic) and homology-based (extrinsic) predictions
- ORPHEUS (Frishman et al., 1998)
- - DPS (Dna-Protein Search) against the Nr database
- Critica (Badger and Olsen 1999)
- - BLASTN against the related genome chosen by the user
- FrameD (Schiex et al., 2003)
- - BLASTX output provided by the user
- YACOP (Tech and Merkl 2003)
- - Integration of Critica, Glimmer and Zcurve