NucleicAcidsResearch, 2000, Vol.28, No.1 10592178 SWISS-PROT
{{| SwissProt은 잘 정리된 [Protein] sequence [Database]로서, 풍부한 annotation과 minimal level of redundancy 그리고, high level of integration with other databases를 장점으로 한다. TrEmbl은 computer annotated된 SwissProt의 공급원으로 모든 [EMBL]의 CDSs를 그 소스로 사용한다. |}}
Contents
Introduction
University of Geneva의 Department of Medical Biochemistry에서 최초로 만들고, [EBI]에서 공동작업하기 시작한 [Protein] [Database]로서, 그 기본 특징은 다음과 같다.
Annotation
SwissProt의 데이터는 core데이터(sequence, citation, taxonomic data)와 annotation데이터로 구분할 수 있다.
annotation데이터는 다음의 것들이 있다.
- Functions of the protein
- Domain and sites (calcium binding regions, ATP-binding sites, zinc fingers, etc)
- Secondary structure (alpha helix, beta sheet, etc)
- Quaternary structure (heterotrimer, homodimer, etc)
- Simlarities to other proteins
- Sequence conflicts, variants, etc
또한, Systematic한 접근을 위해 다음의 특정정보를 제공한다. 이들은 특정분류로 단백질들을 분류화할때 도움이 된다.
- comment
- feature table
- keyword
Minimal redundancy
최대한 중복을 피하도록 merge시켰다. conflict 데이터의 경우 feature table에 표시해놓았다.
Integration with other databases
BioDatabaseIntegration은 생물정보학의 중요한 문제중 하나. 각 유용한 BiologicalDatabase로의 연결정보를 제공한다. 현재 [EMBL], [PDB], [OMIM], [PROSITE], [Pfam], InterPro등과 연결된다.
Recent Developments
Model organisms
[Genome] project, mapping project를 하고 있는 몇몇 모델종들을 정해놓고
- 가능한한 모든 단백질들을 포함시키며
- 고급정보를 달고, (annotation)
- cross-references, documents와 연결시키는 작업들을 하고 있다.
따라서, 약 10개 종이 SwissProt의 40%정도를 차지한다.
Human Proteomics Initiative
HumanGenomeProject를 통해서 [Genome]서열들이 밝혀지고 있는 이때, 남겨진 과제는 상세한 Biological process들을 이해하는 일이며,그러기 위해선 [Genome]서열에서 모든 CDS를 찾아내야만 한다.
그러나, 현재의 알고리즘은 물론 강력하긴 하나,
- exon들을 정확히 찾아주지 못하며,
- different splice variants를 구분할 능력이 없으며,
- small protein에 대해 찾지 못하는 경향이 있다.
또한, 모든 CDS를 찾아내었다고해도, PostTranslationalModification을 모르기 때문에 naked protein에 불과하다. 그리고, 마지막으로 Disease정보와 연관된 Polymorphism까지 생각하면 가야할 길이 멀다.
HPI는 알려진 모든 예측된 Human [Protein] sequence에 대해 SwissProt수준의 주석을 달고자 하는 프로젝트이다.
현재(2000)
- 5400개의 annotated protein,
- 14,500개의 문헌정보연결,
16,000개의 실험적/예측된 PostTranslationalModification,
- 800개의 splice variants,
- 8,000개의 polymorphism정보를 갖고 있다.
TrEMBL
See TrEmbl page
Practical information
Release frequency
1년에 4번의 release (2002.5 현재 release 40)을 한다. 또한 매주 업데이트되는데, 업데이트되는 내용은
- new_seq.dat : all new entries since the last full release
- upd_seq.dat : all updated entries ~
- upd_ann.dat : all updated in annotation field ~