한국 유전자 데이터 베이스(진누리). BRIC에 있다.
Sujin이 관여했던 프로젝트.
글쎄 뭐라고할까...
진누리는 제가 바이오인포는 물론이고 컴퓨터란 물건하고도 거리가 아주 멀때 만들기 시작해서 나에게 이 분야의 많은 노하우들을 알게 해준 프로젝트이지요.
1997년 11월 부터 시작되었습니다.
Database는 UniSql이라는 ObjectOrientedDatabase를 사용하였고, 웹 연동은 Tcl이란 언어로 구현되었습니다. UniSql은 DB 상에서 object 개념을 구현한 DBMS인데 우리나라 전산학자가 만들었다고 합니다. 실제 개발에서 사용한 object개념은 inheritance이고, table설계시 superclass 와 subclass개념을 썼습니다.
즉, 유전자의 종류가 (EST, cDNA, genomic, 기타)가 있을 때, 공통된 sequence의 정보는 superclass인 seq table에 넣고 각 유전자 종류별 특성만 subclass에서 다루도록 각 유전자 종류 테이블을 만들었습니다.
처음엔 GenBank의 구조를 분석하는 일 부터 했지요. 혹시 GenBank accession number 의 AI123456 에서 앞의 알파벳 번호가 무엇을 의미하는 지 아시는 분? 이걸 NCBI staff에게 메일로 질문했더니, GenBank, DDBJ, EMBL에서 각자 유전자의 종류(특허, EST, HTS..)에 따라 고유하게 가지는 두자리의 알파벳이라고 하더군요.
진누리의 유전자들은 KS로 시작합니다.(KS mark처럼..물론 국제 공인을 받은 것은 아니지만..제가 정했습니다.)(오홋.. Korean Standard!!) 한국 유전자 데이터베이스 지요. 말그대로. 국내에도 국외 유전자 데이터베이스와 같은 유전자 bank가 필요하다는 목적을 가지고 만들게 되었는 데,,, 다른 국외 데이터베이스 처럼 국가적인 서포트를 받진 못하고 있기 때문에(안타까운 일이지요) 현재로선 유전자 등록 서비스 사이트로만 유지되고 있습니다.
유전자 등록은 Gene-In이라고 하는 웹 등록 site를 통해 할 수 있습니다. 등록은 쉽고, 대량 EST들도 등록이 간단합니다. 이 곳을 종해 등록시 국외유전자 bank에도 등록이 바로 됩니다.
현재, 국내연구자들이 등록한 유전자 8,707건이 구축되어 있습니다. 그외에도 96년 부터 2000년 까지의 국내 연구자들이 GenBank에 등록한 자료들이 따로 13,000 건이 구축되어있습니다. 앞으로 국내 바이오 인포 연구의 소스로 잘 이용되기를 바라고 있습니다.
진누리(GeneNuri)한국 유전자 데이터베이스 연혁입니다.
DBMS : UniSql, ProgrammingLanguage : Tcl, OperatingSystem : Sun solaris
1997년 11월 : GenBank modelling 및 진누리 modelling
- 1998년 4월 : 진인(Gene-In) 유전자 등록 시스템 완성 및 웹 공개
1998년 5월 : 진누리(GeneNuri) 데이터베이스 구축 완료 및 BRIC site를 통해 공개
- 1998년 5월 ~ 현재 : 유전자 자료 등록(논문발췌, 저자 직접 등록, EST등록 홍보) 및 검색 서비스 제공 2001년 10월 현재, 8,707건의 국내 유전자 서열 자료 보유)
1998. 8 GenBank의 국내 유전자를 가져와 GeneKo database로 구축. 자동등록 프로그래밍(Cee) : 1998년 ~ 2000년 3월의 국내 유전자 자료 구축(13,000여건)
DDBJ와 협약으로 EST 대량 등록 시 comment line에 BRIC의 웹 주소와 BRIC을 통한 등록임을 알리는 문구 삽입.
- 남홍길, 이민호, 채수진, 이주행, 김양석 (1998) "인터넷 웹을 통해 유전자 등록시 데이터의 수정, 전송 및 데이터베이스 구축을 위한 source 파일들" 대한민국, 특허원 제98-01-25-2644호
2001. 1 진인(Gene-In), 진누리(GeneNuri) 상표 등록