NCBI에서 운영하는 세계적으로 가장 방대한 NucleicAcid, Gene 데이타베이스. 유럽의EMBL, 일본의DDBJ와 포맷만 약간 다른 같은 데이터들을 공유하고 있다. 매일마다 이 세곳에서 데이터교환을 한다고 한다.

http://www.ncbi.nlm.nih.gov/Genbank/

NCBI ftp에서 제공하는 GenBank FlatFile을 몽땅다운로드 받으면 200기가바이트정도 한다.

참고로 NCBI에서 운영하는 Protein 데이터베이스는 GenPept이다. GenBank데이터는 Entrez를 통해서 사용할 수 있다.


GenBank ID를 알고 있을때 파일을 받을 수 있는 스크립트

아래 코드를 저장하고

$ python DownGenBank.py GenBankID

처럼 실행하면 아이디를 파일이름으로 하는 두개의파일 ( GenBank format, [FASTA] format)을 받게 된다. 코드는 간단합니다.

import sys,os 
from Bio import GenBank

pid = os.fork()
if pid ==0:
    open(sys.argv[1]+'.fasta', 'w').write(GenBank.NCBIDictionary('nucleotide','fasta')[sys.argv[1]])
else:
    open(sys.argv[1]+'.gb', 'w').write(GenBank.NCBIDictionary('nucleotide','genbank')[sys.argv[1]])
    os.wait()


InterWikiForBioinfo


CategoryDatabase

GenBank (last edited 2012-05-31 17:40:49 by 61)

web biohackers.net