NCBI에서 운영하는 세계적으로 가장 방대한 NucleicAcid, Gene 데이타베이스. 유럽의EMBL, 일본의DDBJ와 포맷만 약간 다른 같은 데이터들을 공유하고 있다. 매일마다 이 세곳에서 데이터교환을 한다고 한다.
http://www.ncbi.nlm.nih.gov/Genbank/
NCBI ftp에서 제공하는 GenBank FlatFile을 몽땅다운로드 받으면 200기가바이트정도 한다.
참고로 NCBI에서 운영하는 Protein 데이터베이스는 GenPept이다. GenBank데이터는 Entrez를 통해서 사용할 수 있다.
GenBank ID를 알고 있을때 파일을 받을 수 있는 스크립트
아래 코드를 저장하고
$ python DownGenBank.py GenBankID
처럼 실행하면 아이디를 파일이름으로 하는 두개의파일 ( GenBank format, [FASTA] format)을 받게 된다. 코드는 간단합니다.
import sys,os from Bio import GenBank pid = os.fork() if pid ==0: open(sys.argv[1]+'.fasta', 'w').write(GenBank.NCBIDictionary('nucleotide','fasta')[sys.argv[1]]) else: open(sys.argv[1]+'.gb', 'w').write(GenBank.NCBIDictionary('nucleotide','genbank')[sys.argv[1]]) os.wait()