BioPythonFaq/GenBank - BioHackersNet

Contents

웹에서 GenBank 문서를 획득할때
GenBank 문서의 파싱
GenBank Peptide Parsing 버그

웹에서 GenBank 문서를 획득할때

Q. NCBIDictionary 클래스를 이용하여, db가 Protein인 문서를 가져오려고 하면, 에러가 발생합니다.

ncbi_dict = GenBank.NCBIDictionary()

A. 그럴때는 위의 클래스에 database='Protein'을 인수로 넘겨줍니다.

ncbi_dict = GenBank.NCBIDictionary(database='Protein')

GenBank 문서의 파싱

Q. Genbank 파싱할때, db가 Protein이면 에러가 납니다. [BioPythonTutorial/CookBook/GenBank] 페이지 중반에 소개되는 에러입니다. 이럴때 해결할 수 있는 방법은 무엇입니까?

A. 이것은 Biopython 에 아직 Protein 을 다루는 기능이 없기 때문입니다. (2001.9.17 현재) GenBank file을 parsing 할 때 일으키는 각종 에러들에 대해서는 좀 더 상세한 정보를 보는 방법이 있습니다. "python2x\Bio\GenBank\init.py(GenBank)" 에서 FeatureParser 나 RecordParser 가 어디에서 문제를 일으키는지는 "debug_level = 2" 로 두면 볼 수 있습니다. 디폴트는 "debug_level = 0" 이군요. 이걸 보면 에러나는 곳이 NID (nucleotide ID) 를 찾는 곳인데, PID (Protein ID)가 나와서 에러가 납니다.

GenBank Peptide Parsing 버그

Q. 이 기능이 아직 완벽하지 못한 것 같습니다. ParserPositionException: error parsing at or beyond character xxx 이런식의 에러가 여러 군데서 납니다. try except 문으로 처리해보면 parsing 이 제대로 되는 것도 있고 안되는 것도 있습니다.

파서를 FeatureParser가 아닌 RecordParser를 썼더니, 에러나는것도 있고 안나는것도 있더라고요. FeatureParser는 거의 에러고... 저도 try except로 감싼 후, 되는넘들만 써먹었습니다. --yong27