|| (<-) || [[../Part1]] || StatisticsStudy||[[../Part3]]|| (->) || = Part II. Descriptive statistics = == Ch3. The Histogram == 1. Introduction * Histogram에서 블럭의 크기는 percentages를 의미한다. * Histogram에서 X축의 각 Case의 Range를 일컬어 Class Intervals이라고 한다. 2. Drawing a Histogram * Density Scale에서 블럭의 높이는 그 Case의 percentage를 class interval로 나눈 값이 된다. 3. The Density Scale * Density Scale에서 영역의 크기는 percent를 의미하고 전체 영역은 100%이다. 4. Variables * Variables는 연구에서 주제의 성격을 가진 것이다. 그것은 qualitative이거나 quantitative할 수 있다. * Quantitative variable은 discrete 하거나 continous 할 수 있다. 5. Controlling for a Variable 6. Cross-Tabulation 7. Selective Breeding === Problems === == Ch4. The Average and the Standard Deviation == 1. Introduction * 많은 량의 data를 요약해서 표현할때 그 중심(Center)과 퍼져 있는 정도(Spread)로 간략히 나타낼 수 있다. ( Fig.1. 같은 경우는 두 집단을 중심에서 퍼져 있는 정도로 비교 할 수 있다. 하지만 이와 같은 방식은 Fig.2. 와 같은 경우의 대칭적인 두 Peak를 표현하지 못한다. ) * Center - average, median ..을 사용 * Spread - standard deviation, interquartile 을 사용 2. The average * 정의. 평균(average)은 집합 내의 원소들의 합을 그 집함의 원소의 갯수로 나눈 값과 같다. * HANES의 조사 결과 Fig.3. 같은 그림이 나왔다. (각 나이별로 몸무게, 키를 평균한 것을 그래프로 표현 ) Fig.3. 을 분석하는데 잘못된 분석을 할 수 있는 가능성이 있다. ==> Chapter 2.의 예를 살펴보자. Fig.3. 를 봤을때 사람들은 나이가 들 수록 키가 작아지는가? (만약 그래프가 longitudinal 하다면 Yes, 그렇지 않고 cross-sectional하다면 No ) * Cross-Sectional Study - 서로 다른 subject를 시간에 대해서 비교하는 것 * Longitudinal Study - 하나의 subject를 시간에 따라서 비교하는 경우. * 위의 예제는 미국인들이 시간이 지날 수록 키가 커진다는 주장의 증거가 될 수 있다. 이런 것을 secular trend라고 부름. 이런 secular trend가 Fig.3.에 confound되어 있다. * 만약 연구에서 나이의 영향에 대해서 결론을 내려고 할때면, 그 데이터가 cross-sectional한 것인지, longitudinal 한지 알아내야 한다. 3. The Average and The Histogram * Average은 histogram의 평형점이다. * Histogram의 면적의 반은 median의 왼쪽에 있고, 나머지 면적의 반은 오르쪽에 있다. (또 다른 의미의 center이다 ) * Average가 Median의 오른쪽에 있다면, 그 그래프는 Long right hand tail을 갖은 것이다. * 통계학자들은 long-tailed distribution을 다룰 때는 average대신, median값을 사용하기도 한다. 4. The Root-Mean-Square * r.m.s. size if a list = root( average of ( entries ^ 2 ) ) * 부호를 무시하고 얼마나 큰 값들이 entries에 있는지 알아내는 척도로 쓰인다. 5. The Standard Deviation * SD is the r.m.s. size of the deviations from the average. * 집합의 원소들이 얼마만큼 평균에서 떨어져 있는지 알려주는 척도로 사용된다. ( 보통 Spread를 측정하는 값으로 쓰임. ) * 대략 68%의 원소들이 평균의 1 SD값 내에 존재한다.그리고 대략 95%의 원소들이 평균의 2 SD값내에 존재한다. 많은 집합에서 그런 경우를 보이지만, 모든 경우에 그런 것은 아니다. 6. Computing the Standard Deviation * deviation from average = entry - average * SD = r.m.s. deviation from average * SD = root ( average of ( entries ^ 2 ) - ( average of entries ) ^ 2 ) * SD값은 원래 데이터와 같은 unit을 같는다. 예를 들어서 inches로 키를 측정한 집합의 SD값도 inches이다. 7. Using Statistical Calculator * SD+ - 보통 통계학자들은 SD값을 바로 사용하지 않고 SD보다 약간 큰 SD+를 계산에 이용한다. ( Chaper 26의 section 6에 자세한 설명이 있다. ) * SD = root ( ( number of entries - one ) / number of entries ) * SD+ == Ch5. The Normal Approximation for Data == 1. The Normal Curve * Normal Curve는 데이터를 서로 비교할 수 있는 ideal histogram을 그리기 위해 만들어 졌다. * y = 100% * e ^ ( - x^2 / 2 )/ root( 2 * pi ) * 이 그래프가 중요한 세가지 이유는 다음과 같다. * 그래프가 x = 0 에 대해서 symmetric 하다. * curve의 모든 영역의 합은 100%이다. * x축 어느 좌표에서도 값이 항상 존재한다. * 평균에서 SD의 몇 배 만큼 떨어 졌는지가 Standard Unit의 변환 척도가 된다. ( Standard Units say how many SDs a value is, above (+) or below (-) the average ) * 예를 들어 평균에서 1 SD만큼 떨어진 것이 1 Standard Unit이 된다. * Standard Unit으로 변환 하였을 때 다음과 같은 값들을 얻어 낼 수 있다. * Normal Curve의 -1과 1 사이의 영역은 전체의 68% 정도를 차지한다. * Normal Curve의 -2와 2 사이의 영역은 전체의 95% 정도를 차지한다. * Normal Curve의 -3과 3 사이의 영역은 전체의 99.7% 정도를 차지한다. 2. Finding Areas Under The Normal Curve * 영역의 값을 계산하는 방법들이 나와 있다. ( 그림만 보면 충분히 이해 가능함 ) 3. Normal Approximation For Data * Data를 Normal Curve로 바꿔서 계산하는 방식. * 여러 Histogram들이 Normal Curve를 따르는 것은 놀랄만한 사실이다. 이런 경우는 average와 SD값이 통계를 요약하는데 좋은 수단이 된다. 하지만 또 다른 많은 Histogram들은 Normal Curve를 따르지 않고, 그러한 경우에는 average과 SD로 그 Histogram들을 대표하기는 부족하다. 4. Percentiles * long right or left hand tail을 가진 histogram을 대표할 땐 tail의 작은 percentage때문에 값에 영향을 받은 SD를 사용하면 부정확함. 이런 경우 Percentile을 이용한다. * 그런 경우 interquartile range가 spread의 측정 값으로 쓰이는 것이다. * Interquartile Range = 75th percentile - 25th percentile 5. Percentiles And The Normal Curve * Histogram이 Normal Curve를 따르는 경우 Normal 테이블을 이용해 percentile을 계산할 수 있다. 6. Change Of Scale * 집합의 모든 원소에 같은 수를 더하는 경우 -> 평균은 원래값에 그 같은 수를 더한것과 같고, SD는 변함이 없다. * 집합의 모든 원소에 같은 수를 곱하는 경우 -> 평균은 그 값을 곱한 것과 같아지고, SD 값은 그 수의 절대값을 곱한 것과 같아진다. * 이런 스케일의 변화에도 standard units은 변하지 않는다. == Ch6. Measurement Error == 1. Introduction * 이상적인 세계라면, 같은 것을 여러번 측정했을 때 모두 같은 값이 나올 것이지만, 현실 세계에선 그렇지 않다. 매번 ''Chance error''에 의해 조금씩 다른 값이 나올 것이다. * 3 questions about chance errors * Where do they come from? * How big are they likly to be? * How much is likely to cancel out in the average? 2. Chance error * Ch6 설명을 위해 쓰인 data - Weights of NB 10 * Scales of each stores >> county standard weights >> state standard weights >> National Bureau Standards * 따라서 각 상점 저울의 accuracy는 궁극적으로 NB Standards의 accuracy에 의존하게 된다. * 1940년 즈음에 만들어진 standard weight중 하나인 NB 10(10gram)의 accuracy를 유지하기 위해 그것의 weight을 일주일에 한번씩 측정을 하였다. 각 측정은 같은 방, 같은 기구에서 한 사람에 의해 이루어졌고, 기압이나 온도와 같이 측정값에 영향을 줄 것같은 모든 인자들이 가능하면 일정하도록 하였다. * 이렇게 완전히 동일한 측정 사이에도 측정값들 사이의 차이는 항상 존재한다. 즉, 각 측정값은 정확한 값이 아닌 chance error를 가지고 있는 값이다. * 반복 측정의 용도 * Quality control * '''To know how big chance error is likely to be.''' * '''individual measurement = exact value + chance error''' * ''SD'' of a series of repeated measurements estimates the likely size of the chance error in a single measurement. * The variability in repeated measurements reflects the variability in the chance errors. Mathematically, the SD of the chance errors must equal the SD of the measurements. * The average of all 100 measurements is an estimate for the exact weight of NB 10. 3. Outliers * Extreme measurement * Outliers를 보고하지 않은 것에 대한 NB의 입장 * Rejection of data on the basis of arbitrary performance limits severely distorts the estimate of real process variability. * Outliers를 제거하거나 그렇지 않으면 자신의 measurements가 normal curve를 따르지 않는다고 하여야 한다. * But the prestige of the curve is so high that to ignore outliers is the usual one - a triumph of theory over experience. 4. Bias * Systematic error * Bias affects all measurements the same way, pushing them in the same direction. Chance errors change from measurement to measurement, sometimes up and sometimes down. * '''indivisual measurement = exact value + bias + chance error''' * Bias는 measurement 자체만으로는 파악될 수 없고, external standard나 theoretical prediction과 비교하여 알 수 있다. == Ch7. Plotting Points and Lines == 1. Reading points off a graph 2. Slope and intercept 3. ''y = mx + b'' with slope m and intercept b.