Human Genome를 보면 다수의 CG dinucleotide가 보인다. 이것을 CG pair와 구분하기 위해 CpG라고 부른다. p는 C와 G가 phsphate로 연결되어 있다는 의미.
C (Cytosine)는 일반적으로 DnaMethyltransferase에 의해 methylation되어 있다. CpG는 methylation process에 저항한다. methyl-C는 T로 변환될 확률이 높기 때문에, CpG는 Genome에서 C와 G의 독립발생 빈도보다, 보기 드물어야 한다. 그러나, Promoter주변이나, 많은 Gene들의 start region에서는 methylation process가 suppress되어야 하기 때문에 많은 CpG들을 발견할 수 있다. 이들 region을 CpgIsland라고 하며, 전형적으로 몇백에서 몇천 base길이를 이룬다.
관련정보
CpG Island Searcher : http://www.uscnorris.com/cpgislands2/cpg.aspx
MarkovChain 및 HiddenMarkovModel에서 GeneFinding문제와 함께 예제로 등장한다.