MAMMALIAN GENE COLLECTION

♠ 개요

Mammalian Gene Collection(MGC) 프로젝트는 미국의 NIH에 의해서 새롭게 시도되고 있는 프로젝트로서 full-length cDNA자원 개발 및 확보를 목표로 하고 있다.  이 프로젝트가 수행됨으로서 필연적으로 'cDNA library 제작' 및 'sequencing, 'database 구축' 뿐만 아니라 각종 '분석 기술'들의 개발이 수반될 것이다.

♠ 배경

(1) 유전자 발현을 연구하기 위한 가장 좋은 재료는 cDNA이다.

대부분이 noncoding 부위로 이루어 진 게놈 상에서 transcription(전사)이 되는 부분을 정확하게 예측할 수 있는 방법이 아직까지는 없다. 따라서, 유전자 발현을 연구하기 위해서는 cDNA의 확보가 필수적이다.  이러한 부분에 대한 중요성은 Human Genome Project(HGP)를 계획한 초기 단계에 이미 인식하고 있었으나  1-10 kb정도의 human full-length cDNA에 대한 annotation과 catalog를 만드는데 필요한 기술적인, 전략적인 측면의 발달이 HGP 시작 시에는 미흡했다. 

(2) Expressed Sequence Tag(EST)를 통한 분석 및 한계

1991년에 Venter를 비롯한 연구자들은 cDNA자원을 확보하기 위한 완전히 다른 개념의 approach를 도입하였다. 이른바 EST를 통한 분석이 그것이다. 이후, EST 대량 확보를 위한 전 세계적인 노력이 이루어 졌으며 현재까지, 약 1,500,000 EST가 Genbank 등록되어 있다 (http://www.ncbi.nlm.nih.gov/ncicgap, http://bbrp.llnl.gov/bbrp/image/).  EST database 사용자들에게 있어서 가장 큰 관심은 EST자체의 비교적 짧은 염기서열과 다른 유전자들과의 관계를 이해하는데 있다. 이를 위하여 NCBI는 염기서열의 유사성에 기초하여 UniGene database를 만들었으며(http://www.ncbi.nlm.nih.gov/UniGene), 이들 중 30,000개가 염색체 상에 mapping되어 EST database를 positional cloning에 이용할 수 있게 되었다.  이렇듯, EST를 이용한 연구가 매우 유용하긴 하나,  single-pass sequencing방법에 기인한 염기서열의 부정확성과 partial sequence로는 다양한 연구에 이용하기 어렵다는 한계를 가진다.

(3) Full-length cDNA를 얻는데 필요한 제반 기술의 비약적 발전

지난 몇 년 사이에 다음과 같은 기술들의 비약적이 발전이 있었다.

 * 개선된 fidelity(정확성)와 processivity (진행속도)를 가진 효소의 개발
 * size selection method: 큰 사이즈의 cDNA 분리 가능
 * 반복적으로 나타나는 cDNA 제거 가능 
 * 5'-transcript cap 분리 기술 가능

(4) 프로젝트 관리

궁극적으로 인체와 쥐, 나아가 다른 포유류의 모든 유전자에 대한 대표적인 sequence와 클론을 연구자들에게 제공할 계획을 가지고 있으며,  이 MGC program은 16개의 NIH  산하 기관과 NLM이 후원하고 National Cancer Institute(NCI)와 The National Human Genome Research Institute(NHGRI)가 주축이 되어 수행될 것이다. 

♠  Library and Sequence Production Pipeline: Figure 참조

{{{#!html
<img src="http://www.sciencemag.org/content/vol286/issue5439/images/medium/se4097904001.gif">
}}}

(1) Complementary DNA libraries and clones

 * primary 및 immortalized human cell lines에서 양질의 RNA를 확보한다. 
 * 양질의 library를 만든다 (50% 이상의 클론이 full-length를 갖도록)
 * 3-4kb의 transcript를 cloning하고 sequencing한다.
 * 제작된 library는 IMAGE consortium을 통해 배포한다.
 * 5'과 3' EST sequence는 즉시 GenBank에 등록한다.

(2) Full-length sequencing pipeline

 * 1년에 약 20.000개 정도의 클론을 매우 정확하게 sequencing하는 것이 목표
 * 첫해에는 3-4 kb 정도의 5천개 내지 7천개의 full-length cDNA를 sequencing
 * 다양한 sequencing 전략 이용(transposons, concatenation, primer-walking, shot-gun등)
 * sequence질 평가: HGP standard이용(http://www.nhgri.nih.gov:80/Grant_info/Funding/Statements/RFA/quality_standard.html)
 * 일단은 인체 유전자의 full-length sequencing이 목표, 다음은 쥐.

(3) Informatics

 * 성공의 열쇠는 강력한 informatics tool을 개발하는 것
 * full-length sequence를 찾는데 필요한 알고리즘의 개발
 * 프로젝트가 진행됨에 따라 알고리즘 업그레이드
 * 일의 진행은 MGC web site에 (http://mgc.nci.nih.gov/) 소개
 * annotation(homology, gene families, tissue expression pattern polymorphism)

(4) 테크놀로지 개발

 * rare transcript, 긴 transcript, 독특한 구조를 가진 transcript를 얻기 위한 새 기술필요
 * 양질의 library를 제작하기 위한 새로운 방법 필요