Mega-[BLAST]. a GreedyAlgorithm for align NucleicAcid

http://www.ncbi.nlm.nih.gov/blast/megablast.shtml

[BLAST]n검색옵션중 word size를 크게 하여, NucleicAcid에 대해 일반검색보다 검색속도를 10배정도 향상시킴. [Genome]서열처럼 긴 서열에 대한 상동성검색에 효율적이다.

기본옵션

  • word size : 16 이상
  • gap : non-affine

각 옵션사용

  • [yong27], 2003-02 : -F "m D;R;V" -U T -D 3 -S 40

Discontiguous MegaBlast

이종의 긴 서열에 대해서 보다더 효율적인 MegaBlast. 덜 conserved된 영역의 확인이 가능하다.

Discussion

출력옵션중에 conventional을 사용하면 일반 [BLAST]용 출력을 얻을 수 있는데, 조금이라도 더 빠르게 동작하도록 신경썼는지, 특히도, multiple out 자료형식이 약간 다르다. 처음엔 헤더만 고치면 되는줄 알고, Bio.Blast.NCBIStandalone.py의 _Scanner클래스 헤더스켄부분만 고쳤는데, 이게 multiple일때는 또 그 뒷 레코드부터 헤더자체가 없기때문에 Iterator가 제대로 동작하지 않는다. 고치려면 NCBIStandalone.py를 아예 뜯어고쳐야 할듯.

고민고민하다가... 아 [XML]아웃풋이 있었지. 이럴때를 위한 출력포맷이 아닌가. 그러고 보니, 아직까지 BioPython에서 [BLAST] [Parsing]용 [XML]지원이 아직 안되고 있네... 음... 내가 만들어 볼까 생각중.

--[yong27], 2004-04-16

MegaBlast의 실행파일이 이해가 안간다. 무슨 조치를 취해놨기에 그런지, Multiple FastaFormat에 대해서는 2시간만에 끝났던것이, 스크립트로 일일이 나눠서 각각 하나의 FastaFormat에 대해 돌리니, 3일째 돌고있다. 멀티플 Fasta에 대해서만 빠르게 동작하는 루틴이 구현되어있다는 얘기인가? 개별 쿼리에 대한 실행들은 독립적이라고 여겼었는데, 아무래도, MegaBlast실행파일은 독립적이지 않은것 같다. --[yong27], 2004-04-17

web biohackers.net