(<-)

[../Blast]

[../]

[../PubMed]

(->)

3.2 SWISS-PROT

3.2.1 SWISS-PROT record 의 retrieving

SwissProt (http://www.expasy.ch/sprot/sprot-top.html) 은 손으로 다듬어진 protein sequence 의 database 이다. 어떻게 우리가 script 로 그것에 접속해서 SwissProt formatted results를 parsing 하는지를 보자.

처음에, 우리는 parsing 할 어떤 result 들을 retrieve 할 필요가 있다. 우리가 Orchid를 위한 chalcone synthases를 찾는다고 하자. (orchid 에 대한 흥미있는 것을 찾는 이유는 section 2.3을 보라.)

Chalcone synthase 은 식물에서 flavanoid biosynthesis 와 관련되어 있고, flavanoid 는 pigment colors 와 UV protectants 와 같은 많은 cool things를 만든다.

만약 당신이 SwissProt에서 search를 한다면, 당신은 Chalcone Synthase를 위한 세 개의 orchid protein을 찾을 것이다. ID numbers O23729, O23730, O23731. 이제, 이것들을 grab 하고 흥미로운 정보들을 parsing 하는 script를 써보자.

처음에 우리는 Bio.WWW.Expasyrecord 의 get_sprot_raw() function을 사용해서 record를 grab 한다. 이 function 은 당신이 ID를 주고 raw text record를 얻을 수 있기 때문에 아주 멋지다. (엉망진창이 될 html 은 없다!)

우리는 관심이 있는 세 개의 record를 얻어서, 단지 그것들을 하나의 큰 string 에 넣을 것이다. 그 다음에 그것을 parsing을 위해서 사용할 것이다. 아래의 code 가 방금 쓴 것을 수행한다.

from Bio.WWW import ExPASy
ids = ['O23729', 'O23730', 'O23731']

all_results = ''
for id in ids:
    results = ExPASy.get_sprot_raw(id)
    all_results = all_results + results.read()

이제 우리는 result를 얻었고, 그것들을 흥미로운 정보로 parsing 할 준비가 되었다. 대부분에 parser 와 같이, 우리는 iterator 와 parser를 set up 한다. 우리가 여기서 사용하는 parser 는 SwissProt file을 parsing 해서 흥미로운 feature 들이 attribute 인 Record object 로 만든다.

from Bio.SwissProt import SProt
from Bio import File

s_parser = SProt.RecordParser()
s_iterator = SProt.Iterator(File.StringHandle(all_results), s_parser)

우리는 passing 하기 전에 string 인 all_results를 handle로 변환하였다는 것을 주목하라. Iterator 는 pass 될 handle을 필요로 해서, 그것은 모든 것을 한번에 한 line 씩 읽는다. Bio.File module

은 string을 handle 로 쉽게 변환하는 멋진 StringHandle을 가진다. 아주 멋지다! 이제 우리는 정보 추출을 시작할 준비가 되었다.

정보를 얻기 위해서, 우리는 iterator를 사용해서 record 의 모든 것을 통과시킬 것이다. 각 record에서, 우리는 단지 summary information을 print out 할 것이다.

while 1:
    cur_record = s_iterator.next()

    if cur_record is None:
        break

    print "description:", cur_record.description
    for ref in cur_record.references:
        print "authors:", ref.authors
        print "title:", ref.title

    print "classification:", cur_record.organism_classification
    print

이것은 아래와 같은 summary를 출력할 것이다.

description: CHALCONE SYNTHASE 8 (EC 2.3.1.74) (NARINGENIN-CHALCONE SYNTHASE 8)
authors: Liew C.F., Lim S.H., Loh C.S., Goh C.J.;
title: "Molecular cloning and sequence analysis of chalcone synthase cDNAs of
Bromheadia finlaysoniana.";
classification: ['Eukaryota', 'Viridiplantae', 'Embryophyta', 'Tracheophyta', 
'Spermatophyta', 'Magnoliophyta', 'Liliopsida', 'Asparagales', 'Orchidaceae', 
'Bromheadia']

SwissProt record 로부터 어떤 종류의 정보를 추출하는 것도 똑같이 쉽다.

지금, 아마 당신은 내가 미리 record의 accession number를 알고 있었다는 것을 깨달았을 것이다. 실제로, get_sprot_raw()는 entry name이나 accession number가 필요하다. 당신이 그것을 모른다면, 당신은 sprot_search_de()나 sprot_search_ful() 함수 중 하나를 사용할 수 있다. sprot_search_de()는 ID, DE, GN, OS, OG lines에서 서치하고, sprot_search_ful()은 (거의) 모든 필드에서 서치한다. 그들은 http://www.expasy.org/cgi-bin/sprot-search-de (또는 ful)에서 각각 자세히 설명되어 있다. 그들이 default로 TrEMBL에서 검색하지 않는다는 것을 주목해라. (trembl argument를 사용) 또한 그들은 html 페이지를 return한다는 것을 주목하라; 하지만, accession number는 상당히 쉽게 추출할 수 있다.

from Bio.WWW import ExPASy
import re

handle = ExPASy.sprot_search_de("Orchid Chalcone Synthase")
# or:
# handle = ExPASy.sprot_search_ful("Orchid and {Chalcone Synthase}")
html_results = handle.read()
if "Number of sequences found" in html_results :
    ids = re.findall(r'HREF="/cgi-bin/niceprot\.pl\?(\w+)"', html_results)
else :
    ids = re.findall(r'href="/cgi-bin/get-sprot-raw\.pl\?(\w+)"', html_results)

BioPythonTutorial/CookBook/SwissProt (last edited 2011-08-03 11:00:54 by localhost)

web biohackers.net