Part II. Descriptive statistics

Ch3. The Histogram

Introduction
- Histogram에서 블럭의 크기는 percentages를 의미한다.
- Histogram에서 X축의 각 Case의 Range를 일컬어 Class Intervals이라고 한다.
Drawing a Histogram
- Density Scale에서 블럭의 높이는 그 Case의 percentage를 class interval로 나눈 값이 된다.
The Density Scale
- Density Scale에서 영역의 크기는 percent를 의미하고 전체 영역은 100%이다.
Variables
- Variables는 연구에서 주제의 성격을 가진 것이다. 그것은 qualitative이거나 quantitative할 수 있다.
- Quantitative variable은 discrete 하거나 continous 할 수 있다.
Controlling for a Variable
Cross-Tabulation
Selective Breeding

Problems

Ch4. The Average and the Standard Deviation

Introduction
- 많은 량의 data를 요약해서 표현할때 그 중심(Center)과 퍼져 있는 정도(Spread)로 간략히 나타낼 수 있다. ( Fig.1. 같은 경우는 두 집단을 중심에서 퍼져 있는 정도로 비교 할 수 있다. 하지만 이와 같은 방식은 Fig.2. 와 같은 경우의 대칭적인 두 Peak를 표현하지 못한다. )
- Center - average, median ..을 사용
- Spread - standard deviation, interquartile 을 사용
The average
- 정의. 평균(average)은 집합 내의 원소들의 합을 그 집함의 원소의 갯수로 나눈 값과 같다.
- HANES의 조사 결과 Fig.3. 같은 그림이 나왔다. (각 나이별로 몸무게, 키를 평균한 것을 그래프로 표현 )
  - Fig.3. 을 분석하는데 잘못된 분석을 할 수 있는 가능성이 있다. ==> Chapter 2.의 예를 살펴보자. Fig.3. 를 봤을때 사람들은 나이가 들 수록 키가 작아지는가? (만약 그래프가 longitudinal 하다면 Yes, 그렇지 않고 cross-sectional하다면 No )
- Cross-Sectional Study - 서로 다른 subject를 시간에 대해서 비교하는 것
- Longitudinal Study - 하나의 subject를 시간에 따라서 비교하는 경우.
- 위의 예제는 미국인들이 시간이 지날 수록 키가 커진다는 주장의 증거가 될 수 있다. 이런 것을 secular trend라고 부름. 이런 secular trend가 Fig.3.에 confound되어 있다.
- 만약 연구에서 나이의 영향에 대해서 결론을 내려고 할때면, 그 데이터가 cross-sectional한 것인지, longitudinal 한지 알아내야 한다.
The Average and The Histogram
- Average은 histogram의 평형점이다.
- Histogram의 면적의 반은 median의 왼쪽에 있고, 나머지 면적의 반은 오르쪽에 있다. (또 다른 의미의 center이다 )
- Average가 Median의 오른쪽에 있다면, 그 그래프는 Long right hand tail을 갖은 것이다.
- 통계학자들은 long-tailed distribution을 다룰 때는 average대신, median값을 사용하기도 한다.
The Root-Mean-Square
- r.m.s. size if a list = root( average of ( entries ^ 2 ) )
- 부호를 무시하고 얼마나 큰 값들이 entries에 있는지 알아내는 척도로 쓰인다.
The Standard Deviation
- SD is the r.m.s. size of the deviations from the average.
- 집합의 원소들이 얼마만큼 평균에서 떨어져 있는지 알려주는 척도로 사용된다. ( 보통 Spread를 측정하는 값으로 쓰임. )
- 대략 68%의 원소들이 평균의 1 SD값 내에 존재한다.그리고 대략 95%의 원소들이 평균의 2 SD값내에 존재한다.
  - 많은 집합에서 그런 경우를 보이지만, 모든 경우에 그런 것은 아니다.
Computing the Standard Deviation
- deviation from average = entry - average
- SD = r.m.s. deviation from average
- SD = root ( average of ( entries ^{2 ) - ( average of entries )} 2 )
- SD값은 원래 데이터와 같은 unit을 같는다. 예를 들어서 inches로 키를 측정한 집합의 SD값도 inches이다.
Using Statistical Calculator
- SD+ - 보통 통계학자들은 SD값을 바로 사용하지 않고 SD보다 약간 큰 SD+를 계산에 이용한다. ( Chaper 26의 section 6에 자세한 설명이 있다. )
- SD = root ( ( number of entries - one ) / number of entries ) * SD+

Ch5. The Normal Approximation for Data

The Normal Curve
- Normal Curve는 데이터를 서로 비교할 수 있는 ideal histogram을 그리기 위해 만들어 졌다.
- y = 100% * e ^{( - x}2 / 2 )/ root( 2 * pi )
- 이 그래프가 중요한 세가지 이유는 다음과 같다.
  - 그래프가 x = 0 에 대해서 symmetric 하다.
  - curve의 모든 영역의 합은 100%이다.
  - x축 어느 좌표에서도 값이 항상 존재한다.
- 평균에서 SD의 몇 배 만큼 떨어 졌는지가 Standard Unit의 변환 척도가 된다. ( Standard Units say how many SDs a value is, above (+) or below (-) the average )
  - 예를 들어 평균에서 1 SD만큼 떨어진 것이 1 Standard Unit이 된다.
- Standard Unit으로 변환 하였을 때 다음과 같은 값들을 얻어 낼 수 있다.
  - Normal Curve의 -1과 1 사이의 영역은 전체의 68% 정도를 차지한다.
  - Normal Curve의 -2와 2 사이의 영역은 전체의 95% 정도를 차지한다.
  - Normal Curve의 -3과 3 사이의 영역은 전체의 99.7% 정도를 차지한다.
Finding Areas Under The Normal Curve
- 영역의 값을 계산하는 방법들이 나와 있다. ( 그림만 보면 충분히 이해 가능함 )
Normal Approximation For Data
- Data를 Normal Curve로 바꿔서 계산하는 방식.
- 여러 Histogram들이 Normal Curve를 따르는 것은 놀랄만한 사실이다. 이런 경우는 average와 SD값이 통계를 요약하는데 좋은 수단이 된다. 하지만 또 다른 많은 Histogram들은 Normal Curve를 따르지 않고, 그러한 경우에는 average과 SD로 그 Histogram들을 대표하기는 부족하다.
Percentiles
- long right or left hand tail을 가진 histogram을 대표할 땐 tail의 작은 percentage때문에 값에 영향을 받은 SD를 사용하면 부정확함. 이런 경우 Percentile을 이용한다.
- 그런 경우 interquartile range가 spread의 측정 값으로 쓰이는 것이다.
- Interquartile Range = 75th percentile - 25th percentile
Percentiles And The Normal Curve
- Histogram이 Normal Curve를 따르는 경우 Normal 테이블을 이용해 percentile을 계산할 수 있다.
Change Of Scale
- 집합의 모든 원소에 같은 수를 더하는 경우 -> 평균은 원래값에 그 같은 수를 더한것과 같고, SD는 변함이 없다.
- 집합의 모든 원소에 같은 수를 곱하는 경우 -> 평균은 그 값을 곱한 것과 같아지고, SD 값은 그 수의 절대값을 곱한 것과 같아진다.
- 이런 스케일의 변화에도 standard units은 변하지 않는다.

Ch6. Measurement Error

Introduction
- 이상적인 세계라면, 같은 것을 여러번 측정했을 때 모두 같은 값이 나올 것이지만, 현실 세계에선 그렇지 않다. 매번 Chance error에 의해 조금씩 다른 값이 나올 것이다.
- 3 questions about chance errors
  - Where do they come from?
  - How big are they likly to be?
  - How much is likely to cancel out in the average?
Chance error
- Ch6 설명을 위해 쓰인 data - Weights of NB 10
  - Scales of each stores >> county standard weights >> state standard weights >> National Bureau Standards
  - 따라서 각 상점 저울의 accuracy는 궁극적으로 NB Standards의 accuracy에 의존하게 된다.
  - 1940년 즈음에 만들어진 standard weight중 하나인 NB 10(10gram)의 accuracy를 유지하기 위해 그것의 weight을 일주일에 한번씩 측정을 하였다. 각 측정은 같은 방, 같은 기구에서 한 사람에 의해 이루어졌고, 기압이나 온도와 같이 측정값에 영향을 줄 것같은 모든 인자들이 가능하면 일정하도록 하였다.
- 이렇게 완전히 동일한 측정 사이에도 측정값들 사이의 차이는 항상 존재한다. 즉, 각 측정값은 정확한 값이 아닌 chance error를 가지고 있는 값이다.
- 반복 측정의 용도
  - Quality control
  - To know how big chance error is likely to be.
- individual measurement = exact value + chance error
  - SD of a series of repeated measurements estimates the likely size of the chance error in a single measurement.
  - The variability in repeated measurements reflects the variability in the chance errors. Mathematically, the SD of the chance errors must equal the SD of the measurements.
- The average of all 100 measurements is an estimate for the exact weight of NB 10.
Outliers
- Extreme measurement
- Outliers를 보고하지 않은 것에 대한 NB의 입장
  - Rejection of data on the basis of arbitrary performance limits severely distorts the estimate of real process variability.
- Outliers를 제거하거나 그렇지 않으면 자신의 measurements가 normal curve를 따르지 않는다고 하여야 한다.
- But the prestige of the curve is so high that to ignore outliers is the usual one - a triumph of theory over experience.
Bias
- Systematic error
- Bias affects all measurements the same way, pushing them in the same direction. Chance errors change from measurement to measurement, sometimes up and sometimes down.
- indivisual measurement = exact value + bias + chance error
- Bias는 measurement 자체만으로는 파악될 수 없고, external standard나 theoretical prediction과 비교하여 알 수 있다.

Ch7. Plotting Points and Lines

Reading points off a graph
Slope and intercept
y = mx + b with slope m and intercept b.