MAMMALIAN GENE COLLECTION ♠ 개요 Mammalian Gene Collection(MGC) 프로젝트는 미국의 NIH에 의해서 새롭게 시도되고 있는 프로젝트로서 full-length cDNA자원 개발 및 확보를 목표로 하고 있다. 이 프로젝트가 수행됨으로서 필연적으로 'cDNA library 제작' 및 'sequencing, 'database 구축' 뿐만 아니라 각종 '분석 기술'들의 개발이 수반될 것이다. ♠ 배경 (1) 유전자 발현을 연구하기 위한 가장 좋은 재료는 cDNA이다. 대부분이 noncoding 부위로 이루어 진 게놈 상에서 transcription(전사)이 되는 부분을 정확하게 예측할 수 있는 방법이 아직까지는 없다. 따라서, 유전자 발현을 연구하기 위해서는 cDNA의 확보가 필수적이다. 이러한 부분에 대한 중요성은 Human Genome Project(HGP)를 계획한 초기 단계에 이미 인식하고 있었으나 1-10 kb정도의 human full-length cDNA에 대한 annotation과 catalog를 만드는데 필요한 기술적인, 전략적인 측면의 발달이 HGP 시작 시에는 미흡했다. (2) Expressed Sequence Tag(EST)를 통한 분석 및 한계 1991년에 Venter를 비롯한 연구자들은 cDNA자원을 확보하기 위한 완전히 다른 개념의 approach를 도입하였다. 이른바 EST를 통한 분석이 그것이다. 이후, EST 대량 확보를 위한 전 세계적인 노력이 이루어 졌으며 현재까지, 약 1,500,000 EST가 Genbank 등록되어 있다 (http://www.ncbi.nlm.nih.gov/ncicgap, http://bbrp.llnl.gov/bbrp/image/). EST database 사용자들에게 있어서 가장 큰 관심은 EST자체의 비교적 짧은 염기서열과 다른 유전자들과의 관계를 이해하는데 있다. 이를 위하여 NCBI는 염기서열의 유사성에 기초하여 UniGene database를 만들었으며(http://www.ncbi.nlm.nih.gov/UniGene), 이들 중 30,000개가 염색체 상에 mapping되어 EST database를 positional cloning에 이용할 수 있게 되었다. 이렇듯, EST를 이용한 연구가 매우 유용하긴 하나, single-pass sequencing방법에 기인한 염기서열의 부정확성과 partial sequence로는 다양한 연구에 이용하기 어렵다는 한계를 가진다. (3) Full-length cDNA를 얻는데 필요한 제반 기술의 비약적 발전 지난 몇 년 사이에 다음과 같은 기술들의 비약적이 발전이 있었다. * 개선된 fidelity(정확성)와 processivity (진행속도)를 가진 효소의 개발 * size selection method: 큰 사이즈의 cDNA 분리 가능 * 반복적으로 나타나는 cDNA 제거 가능 * 5'-transcript cap 분리 기술 가능 (4) 프로젝트 관리 궁극적으로 인체와 쥐, 나아가 다른 포유류의 모든 유전자에 대한 대표적인 sequence와 클론을 연구자들에게 제공할 계획을 가지고 있으며, 이 MGC program은 16개의 NIH 산하 기관과 NLM이 후원하고 National Cancer Institute(NCI)와 The National Human Genome Research Institute(NHGRI)가 주축이 되어 수행될 것이다. ♠ Library and Sequence Production Pipeline: Figure 참조 {{{#!html }}} (1) Complementary DNA libraries and clones * primary 및 immortalized human cell lines에서 양질의 RNA를 확보한다. * 양질의 library를 만든다 (50% 이상의 클론이 full-length를 갖도록) * 3-4kb의 transcript를 cloning하고 sequencing한다. * 제작된 library는 IMAGE consortium을 통해 배포한다. * 5'과 3' EST sequence는 즉시 GenBank에 등록한다. (2) Full-length sequencing pipeline * 1년에 약 20.000개 정도의 클론을 매우 정확하게 sequencing하는 것이 목표 * 첫해에는 3-4 kb 정도의 5천개 내지 7천개의 full-length cDNA를 sequencing * 다양한 sequencing 전략 이용(transposons, concatenation, primer-walking, shot-gun등) * sequence질 평가: HGP standard이용(http://www.nhgri.nih.gov:80/Grant_info/Funding/Statements/RFA/quality_standard.html) * 일단은 인체 유전자의 full-length sequencing이 목표, 다음은 쥐. (3) Informatics * 성공의 열쇠는 강력한 informatics tool을 개발하는 것 * full-length sequence를 찾는데 필요한 알고리즘의 개발 * 프로젝트가 진행됨에 따라 알고리즘 업그레이드 * 일의 진행은 MGC web site에 (http://mgc.nci.nih.gov/) 소개 * annotation(homology, gene families, tissue expression pattern polymorphism) (4) 테크놀로지 개발 * rare transcript, 긴 transcript, 독특한 구조를 가진 transcript를 얻기 위한 새 기술필요 * 양질의 library를 제작하기 위한 새로운 방법 필요