BioPythonGnuPlotPy를 이용한 간단한 서열분석 통계프로그램.

  • (아직 뭐 통계란 말 쓰긴 좀 뭣하지만, 암튼...)

CVS에 올렸습니다. 관심있으신분들의 많은 참여를 바랍니다. 커밋을 원하시면 yong27에게 말씀주세요. 계정드립니다.

BioSeqStat

목적 및 방향

각종 기능들

sequence length distribution

FastaFormat의 다수서열을 입력받아 SlidingWindow방식으로 서열길이분포 그리기.

Example (E.coli의 SwissProt 모든 Protein들 길이분포, window size = 30)

ecoli_protein_len_dist.png

AminoAcid contents distribution

FastaFormat의 다수서열을 입력받아 각각 AminoAcid의 발생빈도계산. 발생빈도 그래프그리기.

Example (E.coli의 SwissProt 모든 [[Protein]들 AminoAcid 발생빈도)

aadist.png

Pepide length distribution by each protease

FastaFormat의 다수서열을 입력받아 특정 protease에 의해 생성된 펩타이드들의 길이 분포.

Example (E.coli의 SwissProt 모든 Protein들을 Trypsin으로 절단했을때의 길이분포)

seqlendist_ecoli.png

Peptide masses distribution by each protease

FastaFormat의 다수서열을 입력받아 특정 protease에 의해 생성된 펩타이드들의 질량 분포.

Example (E.coli의 SwissProt 모든 Protein들을 Trypsin으로 절단했을때의 펩타이드 질량분포, SlidingWindow 50적용)

massdist_ecoli.png

SeeAlso PmfSimulation

Random generated 서열과 비교기능

랜덤서열의 PMF

랜덤서열을 만들고, (길이 100짜리 1000개) 트립신 처리후 펩타이드들의 길이분포

random_pmf_dist.png

랜덤서열과 실제서열과의 AminoAcid 조성분포

랜덤서열 (길이 500짜리 NucleicAcid서열을 standard codon table로 translation, stop codon무시, 1000개)

aadist_random.png

E.coli서열 (SwissProt내 모든 Protein서열)

aadist_ecoli.png

Bacillus

aadist_bacillus.png

Drosophila

aadist_drosophila.png

Rattus

aadist_rattus.png

Human

aadist_sapiens.png

Protein hydrophobisity diagram

GcSkew diagram

Discussion

랜덤서열과 실제서열의 AminoAcid조성분포 그림에서, Random 서열의 분포가 저렇게 되는 이유는 codon table때문입니다. 특정 AminoAcid를 더 많이 코딩할 기회가 되는 코돈에 의한 AminoAcid빈도가 더 많음은 당연하겠죠. 그래서 저런 그림이 되는데, E.coli와의 비교를 보면 좀 특이합니다. 저 분포의 차이가 어떤 생물학적 의미를 반영하지 않을까 생각됩니다. 종간 차이도 있을까요?

Bacillus, Drosophila, Rattus, Human 을 하나하나 해본결과 특정 Evolution적 연관관계가 있는것으로 여겨진다. Rattus와 Human은 매우 유사한것에 비해, Drosophila순으로 유사함에 차이가 나타난다.

작업로그


CategoryProgramLibrary

web biohackers.net