(<-)

[BioinfoMla/MachineLearningFoundation]

[BioinfoMla]

[BioinfoMla/MachineLearningAlgorithm]

(->)

BioinformaticsTheMachineLearningApproach Chap 3.

The Simplest Sequence Models

single coin flip : single parameter p

->DNA sequnce의 경우 : we shall move directly to more complex version with four letters

The Single-Die Model with Sequence Data

* 가정: the strings have been obrained by independednt tosses of the same four-sided die (fig 3.1)

* Likelihood

* MAP parameter estimation

* entropy 로의 확장

* not uniform prior인 경우

* Evidence P(D)

* mixture of DirichletDistributions (3.11)

The Single-Die Model tiwh Counts Data

* Likelihood (3.12)

* MAP and MP estimates

* Distribution : that a fixed ventor P induced on the counts nX

* exercise

* simple die model의 활용

The Multiple-Die Model with Sequence Data

조건: gap을 가지고 있는 N length를 가진 K 개의 sequence

* Likelihood (3.17)

* ParameterEstimation

* n-gram model

Statistical Mechanics

*MachineLearningComputationalBiology 와 연관된 Statistical mechanics의 원리를 이해하기 위한 5가지 원리

* Baysian derivation of statistical mechanics and the basic concept

* Interaction Parameter

* 이러한 가정들이 특정한 시스템의 모델링과 세부적인 이론의 전개에 중요함에도 불구하고, 다음 장에서는 불필요하게 된다.

The Boltzmann-GibbsDistrubution

Standard Derivation

Most standard treatments at this point are based on the maximum entropy principle.

다른 부가적인 정보 없이, 선택할 때 distribution P 의 조건 : constraints 인 f(s)ps = D를 만족시키며, 가장 높은 entropy를 가져야 . -> 이유 : 이 방법이 가장 널리 퍼져 있고, 부가적인 가정의 수를 최소화 하기 때문이다.

이 문제를 relevant 한 constraints로 optimize 된 함수들의 linear combination 으로 이루어진 Lagrangian L 로 만들면 쉬워진다. (3.19)

이를 Ps 로 편미분 하여 그 값을 0으로 두면 solution distribution을 얻게 된다. 3.20

Z(λ) = ∑e^(-λf(s)) : partition function

Lagrangian multiplier는 λ= 1/kT (k는 볼츠만 상수)라는 정의해 의해서 계의 온도인 T에 연관이 있다. 그러나 그것을 고려할 필요는 없고 λ을 생각하자. 그러나 λ는 3.21 식을 보면 obsevation D에 의해 결정된다. 종종 λ=1이라는 가정만으로 충분하기도 하다.

*Boltzmann-GibbsDistribution

  1. optimal distribution P* 는 Boltzmann-GibbsDistribution 이라고 부른다.

  2. -lpg P에 비례하는 에너지 함수를 사용하면, 적어도 일정한 온도에서는 어떤 distribution도 Boltzmann-GibbsDistribution으로 나타낼 수 있다. 따라서 ps 에 대한 multiple linear constraints가 있을 때 비슷한 방정식이 유도될 수 있다.

*Baysiean standard derivation 의 한계 (Boltzmann-Gibbs distribution의 관점에서 볼때.)

  1. The prior distribution is not explicit. 따라서 ps에 대한 다른 정보를 결합한다는 것이 어렵다.
  2. The probablistic model is not explicit. likelihood P(D|ps) 계산이 어렵다.
  3. The justification for the use of MaxEnt is weak. 공평하게 말하면, MaxEnt의 사용은 앞서 말한 combinatorial arguement 에 의해 부분적으로 정당화되어지지만, 그것은 entropy의 최대화시키는 것이 가능한 현실화 의 수를 최대화 시키는 것과 근본적으로 같다는 것을 보여준다. 이런 관점에서 MaxEnt solution은 가장 많은 방법으로 현실화 될 수 있는 것이며, 그런 논쟁은 realizations의 수에 근거하고 있고, 스들의 상대적인 확률을 고려하지 않은 것이다.

Baysial Derivation

*대안

특히 likelihood function P(D|ps)는 분명하게 정의되지 못하며, 이런 방향으론 그 계의 실질적인 전개가 고려되지 않고선 진전이 거의 없게 된다. 따라서 초기 설정을 더 확대하여, 매우 큰 N을 고정시키고, system이 그 period 에 걸쳐 관찰되도록 가정한다. Accordingly, we dicide to paramerterize the model using the counts ns.

*가능한 prior

  1. Dirichlet prior - natural
  2. entropic prior - the distribution on ns, when P is uniform
    • such a prior is best justified when the runs are independent, the underlying probabilistic model is a simple die with |S| faces

* 계산

  1. likelihood function is trivial and has value 1 or 0.
  2. proceed with the first step of Bayesian inference and estimate the parameters ns by MAP estimation. (3.22)

    the entropy act as a regularizer. this is of course virtually identical to (3.19) -> MAP Boltzmann-Gibbs distribution for ns/N. 이때 ns 대신 ps를 써도 비슷한 결과가 나온다.

*결론

the Boltzmann-Gibbs distribution corresponds to a first step of Bayesian inference by MAP with an entropic prior. 따라서 MaxEnt 는 일반적인 원리일 뿐만 아니라, entropic prior와 관계있는 multinomial setting에서는 Bayesian inference의 첫 번째 단계의 간단한 지름길로 볼수도 있는 것이다.

Thermodynamic Limit and Phase Transitions

* ThemodynamicLimit : as the size of the system goes to infinity, a limiting value that the value of an extensive quantity per unit of volume tends to

* Main Goals of StaticalMechanics

(1) To estimate the ThermodydamicLimit of macroscopic quantites : to approximate expectations with respect to the Boltzmann-Gibbs distribution

- 특히 partition function 인 Z(λ) 에 가까워 지는 것!

(2) The study of phase transitions, that is abrupt changes in the behavior of the system as some of the parameters are varied

- first-order phase transition, second-order phase transition

The Free Energy

* definition : the logarithm of the partition function

The Hidden Variables Case

*notation

* the posterior P(H|Q,P*) 와 그에 대응하는 기대값들을 계산하기 어려울 때 DataLikelihood를 최대화 하기 위해서는 때때로 차선의 전략-based on a different family of distributions Q -을 사용할 수도 있다.

BioinfoMla/ProbabilisticExample (last edited 2011-08-03 11:01:11 by localhost)