(<-) |
[../Blast] |
[../] |
(->) |
3.2 SWISS-PROT
3.2.1 SWISS-PROT record 의 retrieving
SwissProt (http://www.expasy.ch/sprot/sprot-top.html) 은 손으로 다듬어진 protein sequence 의 database 이다. 어떻게 우리가 script 로 그것에 접속해서 SwissProt formatted results를 parsing 하는지를 보자.
처음에, 우리는 parsing 할 어떤 result 들을 retrieve 할 필요가 있다. 우리가 Orchid를 위한 chalcone synthases를 찾는다고 하자. (orchid 에 대한 흥미있는 것을 찾는 이유는 section 2.3을 보라.)
Chalcone synthase 은 식물에서 flavanoid biosynthesis 와 관련되어 있고, flavanoid 는 pigment colors 와 UV protectants 와 같은 많은 cool things를 만든다.
만약 당신이 SwissProt에서 search를 한다면, 당신은 Chalcone Synthase를 위한 세 개의 orchid protein을 찾을 것이다. ID numbers O23729, O23730, O23731. 이제, 이것들을 grab 하고 흥미로운 정보들을 parsing 하는 script를 써보자.
처음에 우리는 Bio.WWW.Expasyrecord 의 get_sprot_raw() function을 사용해서 record를 grab 한다. 이 function 은 당신이 ID를 주고 raw text record를 얻을 수 있기 때문에 아주 멋지다. (엉망진창이 될 html 은 없다!)
우리는 관심이 있는 세 개의 record를 얻어서, 단지 그것들을 하나의 큰 string 에 넣을 것이다. 그 다음에 그것을 parsing을 위해서 사용할 것이다. 아래의 code 가 방금 쓴 것을 수행한다.
from Bio.WWW import ExPASy ids = ['O23729', 'O23730', 'O23731'] all_results = '' for id in ids: results = ExPASy.get_sprot_raw(id) all_results = all_results + results.read()
이제 우리는 result를 얻었고, 그것들을 흥미로운 정보로 parsing 할 준비가 되었다. 대부분에 parser 와 같이, 우리는 iterator 와 parser를 set up 한다. 우리가 여기서 사용하는 parser 는 SwissProt file을 parsing 해서 흥미로운 feature 들이 attribute 인 Record object 로 만든다.
from Bio.SwissProt import SProt from Bio import File s_parser = SProt.RecordParser() s_iterator = SProt.Iterator(File.StringHandle(all_results), s_parser)
우리는 passing 하기 전에 string 인 all_results를 handle로 변환하였다는 것을 주목하라. Iterator 는 pass 될 handle을 필요로 해서, 그것은 모든 것을 한번에 한 line 씩 읽는다. Bio.File module
은 string을 handle 로 쉽게 변환하는 멋진 StringHandle을 가진다. 아주 멋지다! 이제 우리는 정보 추출을 시작할 준비가 되었다.
정보를 얻기 위해서, 우리는 iterator를 사용해서 record 의 모든 것을 통과시킬 것이다. 각 record에서, 우리는 단지 summary information을 print out 할 것이다.
while 1: cur_record = s_iterator.next() if cur_record is None: break print "description:", cur_record.description for ref in cur_record.references: print "authors:", ref.authors print "title:", ref.title print "classification:", cur_record.organism_classification print
이것은 아래와 같은 summary를 출력할 것이다.
description: CHALCONE SYNTHASE 8 (EC 2.3.1.74) (NARINGENIN-CHALCONE SYNTHASE 8) authors: Liew C.F., Lim S.H., Loh C.S., Goh C.J.; title: "Molecular cloning and sequence analysis of chalcone synthase cDNAs of Bromheadia finlaysoniana."; classification: ['Eukaryota', 'Viridiplantae', 'Embryophyta', 'Tracheophyta', 'Spermatophyta', 'Magnoliophyta', 'Liliopsida', 'Asparagales', 'Orchidaceae', 'Bromheadia']
SwissProt record 로부터 어떤 종류의 정보를 추출하는 것도 똑같이 쉽다.
지금, 아마 당신은 내가 미리 record의 accession number를 알고 있었다는 것을 깨달았을 것이다. 실제로, get_sprot_raw()는 entry name이나 accession number가 필요하다. 당신이 그것을 모른다면, 당신은 sprot_search_de()나 sprot_search_ful() 함수 중 하나를 사용할 수 있다. sprot_search_de()는 ID, DE, GN, OS, OG lines에서 서치하고, sprot_search_ful()은 (거의) 모든 필드에서 서치한다. 그들은 http://www.expasy.org/cgi-bin/sprot-search-de (또는 ful)에서 각각 자세히 설명되어 있다. 그들이 default로 TrEMBL에서 검색하지 않는다는 것을 주목해라. (trembl argument를 사용) 또한 그들은 html 페이지를 return한다는 것을 주목하라; 하지만, accession number는 상당히 쉽게 추출할 수 있다.
from Bio.WWW import ExPASy import re handle = ExPASy.sprot_search_de("Orchid Chalcone Synthase") # or: # handle = ExPASy.sprot_search_ful("Orchid and {Chalcone Synthase}") html_results = handle.read() if "Number of sequences found" in html_results : ids = re.findall(r'HREF="/cgi-bin/niceprot\.pl\?(\w+)"', html_results) else : ids = re.findall(r'href="/cgi-bin/get-sprot-raw\.pl\?(\w+)"', html_results)