Annl.Chem. 2000, 72, 2482-2489, 10857624
ProFound : An ExpertSystem for ProteinIdentification Using MassSpectrometry Peptide Mapping Information
http://prowl.rockefeller.edu/zhangw/ac991363o.pdf
Introduction
기존의 PeptideMassFingerprint 방법
- number of matches
MOWSE score
MOWSE점수는 각 Protein의 개별성질들을 반영하지 못한다. 따라서 본 논문에서는 BayesianInference로 개별성질들을 반영한 점수화방법을 제안한다. 여기서의 개별성질들은
peptide mass
- mass range
- species
- mass accuracy
Enzyme cleavage chemistry
Protein sequence
previous experiments on the sample Protein
AminoAcid contents
Method
designate
k : protein entry in Database
- D : experimental data
I : background information (PriorKnowledge such as
- species,
- approximate mass,
- mass accuracy,
Enzyme cleavage chemistry,
- previous experiments on the sample protein)
assumption
- 그 단백질이 DB에 존재한다.
- 모든 관측된 질량값들은 그 단백질에서 나온것이다.
- 실험치 질량값과 이론치 질량값의 매치는 그 단백질이기때문에 일어나는것이다. (random match제외)
P(k|DI)를 구한다. BayesRule에 의해서
여기에서
P(k|I) : 해당 background정보인 PriorProbability
- P(D|kI) : 가설이 맞을경우 데이터 D가 관측될 Likelihood probability
- P(D|I) : k와 관계없는 상수
따라서, 다음처럼 정리할 수 있다.
위식은, N이 커질경우, 다음식에 수렴한다.
위식을 통해 다음을 알 수 있다. Database내에 주어진 단백질 k에 대해, k가 sample 단백질일 확률은 number of hit r에 따라 증가하고, mass accuracy(i.e. smaller sigma, mi-mij0)에 따라 증가하고, 이론치 조각갯수 N에 따라 감소한다.
tag information : 주어진 peptide에서 알고있는 특별한 AminoAcid들.
- cys : chemical alkylation of free thiol moiety
- met : 16 Da 차이로 쪼개짐 (partially oxidized)
empirical factor : 이경우 확률은 증가된다.
- adjacency
- common-end overlapping
current ProFound input parameter
- taxonomy category
- mass range
- digestion chemistry
- maximum number of missed cleavage sites (digestion정도에 따라 조절)
- modification
Result and Discussion
Identification of Single Isolated Proteins
RS4B_SCHPO 을 예제로 설명. 사용한 parameter는
Saccharomyces cerevisiae
- 35 monoisotopic masses
- mass range 0-3000 kDa
- unmodified cystenis
- maximum missed cleavage sites 2
- mass tolerance 0.1 Da
23개의 실험치질량들이 24개의 이론치질량과 매치. 70% coverage sequence. scatter plot으로 error표시(systematic error의 시각화)
CH60_HUMAN 을 예제한 설명에서는 mouse,rat,hamster에서 homologous protein이 바로 다음 후보로 나왔다.
Identification of Protein Components in mixture
binary mixture로 검색.
Independent verification of the PeptideMassFingerprint
TandemMassSpectrometry 를 이용해서 verification
Improvement of the confidence level using tag information
cys가 있느냐 없느냐에 관한 정보가 ProteinIdentification의 확신을 증가시킴