(<-)

../Part1

StatisticsStudy

../Part3

(->)

Part II. Descriptive statistics

Ch3. The Histogram

  1. Introduction
    • Histogram에서 블럭의 크기는 percentages를 의미한다.
    • Histogram에서 X축의 각 Case의 Range를 일컬어 Class Intervals이라고 한다.
  2. Drawing a Histogram
    • Density Scale에서 블럭의 높이는 그 Case의 percentage를 class interval로 나눈 값이 된다.
  3. The Density Scale
    • Density Scale에서 영역의 크기는 percent를 의미하고 전체 영역은 100%이다.
  4. Variables
    • Variables는 연구에서 주제의 성격을 가진 것이다. 그것은 qualitative이거나 quantitative할 수 있다.
    • Quantitative variable은 discrete 하거나 continous 할 수 있다.
  5. Controlling for a Variable
  6. Cross-Tabulation
  7. Selective Breeding

Problems

Ch4. The Average and the Standard Deviation

  1. Introduction
    • 많은 량의 data를 요약해서 표현할때 그 중심(Center)과 퍼져 있는 정도(Spread)로 간략히 나타낼 수 있다. ( Fig.1. 같은 경우는 두 집단을 중심에서 퍼져 있는 정도로 비교 할 수 있다. 하지만 이와 같은 방식은 Fig.2. 와 같은 경우의 대칭적인 두 Peak를 표현하지 못한다. )
    • Center - average, median ..을 사용
    • Spread - standard deviation, interquartile 을 사용
  2. The average
    • 정의. 평균(average)은 집합 내의 원소들의 합을 그 집함의 원소의 갯수로 나눈 값과 같다.
    • HANES의 조사 결과 Fig.3. 같은 그림이 나왔다. (각 나이별로 몸무게, 키를 평균한 것을 그래프로 표현 )
      • Fig.3. 을 분석하는데 잘못된 분석을 할 수 있는 가능성이 있다. ==> Chapter 2.의 예를 살펴보자. Fig.3. 를 봤을때 사람들은 나이가 들 수록 키가 작아지는가? (만약 그래프가 longitudinal 하다면 Yes, 그렇지 않고 cross-sectional하다면 No )

    • Cross-Sectional Study - 서로 다른 subject를 시간에 대해서 비교하는 것
    • Longitudinal Study - 하나의 subject를 시간에 따라서 비교하는 경우.
    • 위의 예제는 미국인들이 시간이 지날 수록 키가 커진다는 주장의 증거가 될 수 있다. 이런 것을 secular trend라고 부름. 이런 secular trend가 Fig.3.에 confound되어 있다.
    • 만약 연구에서 나이의 영향에 대해서 결론을 내려고 할때면, 그 데이터가 cross-sectional한 것인지, longitudinal 한지 알아내야 한다.
  3. The Average and The Histogram
    • Average은 histogram의 평형점이다.
    • Histogram의 면적의 반은 median의 왼쪽에 있고, 나머지 면적의 반은 오르쪽에 있다. (또 다른 의미의 center이다 )
    • Average가 Median의 오른쪽에 있다면, 그 그래프는 Long right hand tail을 갖은 것이다.
    • 통계학자들은 long-tailed distribution을 다룰 때는 average대신, median값을 사용하기도 한다.
  4. The Root-Mean-Square
    • r.m.s. size if a list = root( average of ( entries ^ 2 ) )
    • 부호를 무시하고 얼마나 큰 값들이 entries에 있는지 알아내는 척도로 쓰인다.
  5. The Standard Deviation
    • SD is the r.m.s. size of the deviations from the average.
    • 집합의 원소들이 얼마만큼 평균에서 떨어져 있는지 알려주는 척도로 사용된다. ( 보통 Spread를 측정하는 값으로 쓰임. )
    • 대략 68%의 원소들이 평균의 1 SD값 내에 존재한다.그리고 대략 95%의 원소들이 평균의 2 SD값내에 존재한다.
      • 많은 집합에서 그런 경우를 보이지만, 모든 경우에 그런 것은 아니다.
  6. Computing the Standard Deviation
    • deviation from average = entry - average
    • SD = r.m.s. deviation from average
    • SD = root ( average of ( entries 2 ) - ( average of entries ) 2 )

    • SD값은 원래 데이터와 같은 unit을 같는다. 예를 들어서 inches로 키를 측정한 집합의 SD값도 inches이다.
  7. Using Statistical Calculator
    • SD+ - 보통 통계학자들은 SD값을 바로 사용하지 않고 SD보다 약간 큰 SD+를 계산에 이용한다. ( Chaper 26의 section 6에 자세한 설명이 있다. )
    • SD = root ( ( number of entries - one ) / number of entries ) * SD+

Ch5. The Normal Approximation for Data

  1. The Normal Curve
    • Normal Curve는 데이터를 서로 비교할 수 있는 ideal histogram을 그리기 위해 만들어 졌다.
    • y = 100% * e ( - x2 / 2 )/ root( 2 * pi )

    • 이 그래프가 중요한 세가지 이유는 다음과 같다.
      • 그래프가 x = 0 에 대해서 symmetric 하다.
      • curve의 모든 영역의 합은 100%이다.
      • x축 어느 좌표에서도 값이 항상 존재한다.
    • 평균에서 SD의 몇 배 만큼 떨어 졌는지가 Standard Unit의 변환 척도가 된다. ( Standard Units say how many SDs a value is, above (+) or below (-) the average )
      • 예를 들어 평균에서 1 SD만큼 떨어진 것이 1 Standard Unit이 된다.
    • Standard Unit으로 변환 하였을 때 다음과 같은 값들을 얻어 낼 수 있다.
      • Normal Curve의 -1과 1 사이의 영역은 전체의 68% 정도를 차지한다.
      • Normal Curve의 -2와 2 사이의 영역은 전체의 95% 정도를 차지한다.
      • Normal Curve의 -3과 3 사이의 영역은 전체의 99.7% 정도를 차지한다.
  2. Finding Areas Under The Normal Curve
    • 영역의 값을 계산하는 방법들이 나와 있다. ( 그림만 보면 충분히 이해 가능함 )
  3. Normal Approximation For Data
    • Data를 Normal Curve로 바꿔서 계산하는 방식.
    • 여러 Histogram들이 Normal Curve를 따르는 것은 놀랄만한 사실이다. 이런 경우는 average와 SD값이 통계를 요약하는데 좋은 수단이 된다. 하지만 또 다른 많은 Histogram들은 Normal Curve를 따르지 않고, 그러한 경우에는 average과 SD로 그 Histogram들을 대표하기는 부족하다.
  4. Percentiles
    • long right or left hand tail을 가진 histogram을 대표할 땐 tail의 작은 percentage때문에 값에 영향을 받은 SD를 사용하면 부정확함. 이런 경우 Percentile을 이용한다.
    • 그런 경우 interquartile range가 spread의 측정 값으로 쓰이는 것이다.
    • Interquartile Range = 75th percentile - 25th percentile
  5. Percentiles And The Normal Curve
    • Histogram이 Normal Curve를 따르는 경우 Normal 테이블을 이용해 percentile을 계산할 수 있다.
  6. Change Of Scale
    • 집합의 모든 원소에 같은 수를 더하는 경우 -> 평균은 원래값에 그 같은 수를 더한것과 같고, SD는 변함이 없다.

    • 집합의 모든 원소에 같은 수를 곱하는 경우 -> 평균은 그 값을 곱한 것과 같아지고, SD 값은 그 수의 절대값을 곱한 것과 같아진다.

    • 이런 스케일의 변화에도 standard units은 변하지 않는다.

Ch6. Measurement Error

  1. Introduction
    • 이상적인 세계라면, 같은 것을 여러번 측정했을 때 모두 같은 값이 나올 것이지만, 현실 세계에선 그렇지 않다. 매번 Chance error에 의해 조금씩 다른 값이 나올 것이다.

    • 3 questions about chance errors
      • Where do they come from?
      • How big are they likly to be?
      • How much is likely to cancel out in the average?
  2. Chance error
    • Ch6 설명을 위해 쓰인 data - Weights of NB 10
      • Scales of each stores >> county standard weights >> state standard weights >> National Bureau Standards

      • 따라서 각 상점 저울의 accuracy는 궁극적으로 NB Standards의 accuracy에 의존하게 된다.
      • 1940년 즈음에 만들어진 standard weight중 하나인 NB 10(10gram)의 accuracy를 유지하기 위해 그것의 weight을 일주일에 한번씩 측정을 하였다. 각 측정은 같은 방, 같은 기구에서 한 사람에 의해 이루어졌고, 기압이나 온도와 같이 측정값에 영향을 줄 것같은 모든 인자들이 가능하면 일정하도록 하였다.
    • 이렇게 완전히 동일한 측정 사이에도 측정값들 사이의 차이는 항상 존재한다. 즉, 각 측정값은 정확한 값이 아닌 chance error를 가지고 있는 값이다.
    • 반복 측정의 용도
      • Quality control
      • To know how big chance error is likely to be.

    • individual measurement = exact value + chance error

      • SD of a series of repeated measurements estimates the likely size of the chance error in a single measurement.

      • The variability in repeated measurements reflects the variability in the chance errors. Mathematically, the SD of the chance errors must equal the SD of the measurements.
    • The average of all 100 measurements is an estimate for the exact weight of NB 10.
  3. Outliers
    • Extreme measurement
    • Outliers를 보고하지 않은 것에 대한 NB의 입장
      • Rejection of data on the basis of arbitrary performance limits severely distorts the estimate of real process variability.
    • Outliers를 제거하거나 그렇지 않으면 자신의 measurements가 normal curve를 따르지 않는다고 하여야 한다.
    • But the prestige of the curve is so high that to ignore outliers is the usual one - a triumph of theory over experience.
  4. Bias
    • Systematic error
    • Bias affects all measurements the same way, pushing them in the same direction. Chance errors change from measurement to measurement, sometimes up and sometimes down.
    • indivisual measurement = exact value + bias + chance error

    • Bias는 measurement 자체만으로는 파악될 수 없고, external standard나 theoretical prediction과 비교하여 알 수 있다.

Ch7. Plotting Points and Lines

  1. Reading points off a graph
  2. Slope and intercept
  3. y = mx + b with slope m and intercept b.

StatisticsStudy/Part2 (last edited 2014-04-08 13:24:16 by 61)

web biohackers.net