일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 베이지안
- Convolutional Neural Network
- Gram matrix
- c#
- CNN
- bayesian
- 오토인코더
- 전처리
- neural network
- A Neural Algorithm of Artistic Style
- 역전파
- 합성곱 신경망
- 냥코 센세
- Python
- mnist
- 딥러닝
- 소인수분해
- Autoencoder
- SQL
- 자전거 여행
- deep learning
- 역전파법
- 소수
- 신경망
- project euler
- 히토요시
- 오일러 프로젝트
- 비샤몬당
- 수달
- backpropagation
- Today
- Total
통계, IT, AI
표본 범위와 표본 표준편차 비교 본문
1. 개요
이것저것을 하다보니 통계적 공정 관리(Statistical Process Control; SPC)를 접할 일이 있었다. SPC란 통계적인 방법론을 사용하여 품질을 관리하는 시스템이다. 1920년대 초반에 아이디어가 나왔고 지금까지 많은 공장에서 사용되고 있다. SPC의 구체적인 내용은 이번 포스팅의 주제가 아니므로 다루지 않고 링크로 대체한다. SPC에서 나의 관심을 끈 것은 아래와 같은 그림이었다. 1
Sample size(\(n\))가 2 이상, 10 미만인 경우 Xbar-R chart를, 10 이상일 때에는 Xbar-S chart를 사용하라고 한다. 즉, \(n\)이 작을 때에는 표본의 범위(\(r\))로 모표준편차(\(\sigma\))를 추정하고 \(n\)이 클 때에는 표본의 표준편차(\(s\))로 \(\sigma\)를 추정하자는 것이다. 2
$$ r=max(x_i)-min(x_i) $$ $$ s=\sqrt{s^{2}}=\sqrt{ \frac{1}{n-1} \sum_{i=1}^{n}(x_i-\bar{x})^2 } $$\( r \)을 이용한 \( \sigma \)의 추정량(estimator)을 \( \hat\sigma_r \), \( s \)를 이용한 \( \sigma \)의 추정량을 \( \hat\sigma_s \)라고 하자. 그렇다면 n의 크기에 따른 각 추정량의 성질이 어떻게 변하길래 그러한 기준이 생긴 것일까? \(X\sim N(0,\sigma^2)\)를 가정하고 진행해보자.
2. 어떤 추정량이 더 좋은 추정량인가?
2.1. 불편(unbiased)성 비교
가장 먼저 떠오르는 것은 \(r\)과 \(s\)의 기대값이 무엇이냐는 것이다. 만약 Bias가 있다면, correction이 가능한지도 궁금했다. \( E(r) \)를 구하기 전에 필요한 두가지 공식을 정리하자.
임의의 Random Variable \(X\)의 누적분포함수(Cumulative Distribution Function; cdf)를 \( F(x) \), 확률밀도함수(Probability Density function; pdf)를 \( f_X(x) \)라고 하면 0이 아닌 실수 \( m \)에 대하여 아래의 식이 성립한다.
$$ E(X^m)=\int_{0}^{\infty}mx^{m-1}(1-F(x))dx+\int_ {-\infty}^{0}mx^{m-1}F(x)dx \label{basic01}\tag{1} $$
\(r\)의 cdf \(F_R(r)\)는 아래와 같다.
$$ F_R(r)=n\int_{-\infty}^{\infty}(F(v+r)-F(v))^{n-1}f_X(v)dv \label{basic02}\tag{2} $$
(1)과 (2)를 이용하면 \(E(r)\)을 구할 수 있다. 단, \(\Phi\)는 표준정규분포의 cdf이다.
\begin{eqnarray*} E(r)&=&\sigma\int_{0}^{\infty}1- n\int_{-\infty}^{\infty}(\Phi(v+r)-\Phi(v))^{n-1}\Phi'(v)dvdr \\&\equiv& d_2(n)\sigma \end{eqnarray*}
\(E(s)\)는 정규분포와 \(\chi^2-\) 분포의 관계를 이용하여 쉽게 구할 수 있다.
\begin{eqnarray*} E(s) &=& \sqrt{\frac{\sigma^2}{n-1}}E\left( \sqrt{\frac{(n-1)s^2}{\sigma^2}}\right) \\[3pt] &=& \frac{\sigma}{\sqrt{n-1}} \int_{0}^{\infty}\sqrt{x}\frac{1}{2^{(n-1)/2}\Gamma\left((n-1)/2\right)}x^{(n-1)/2-1}\exp(-x/2)dx \\[3pt] &=& \frac{\sigma}{\sqrt{n-1}} \frac{2^{n/2}\Gamma(n/2)}{2^{(n-1)/2}\Gamma((n-1)/2)}\int_{0}^{\infty}\sqrt{x}\frac{1}{2^{n/2}\Gamma(n/2)}x^{n/2-1}\exp(-x/2)dx \\[3pt] &=& \sigma\sqrt{\frac{2}{n-1}}\frac{\Gamma(n/2)}{\Gamma\left((n-1)/2\right)} \\[3pt] &\equiv& c_4(n)\sigma \end{eqnarray*}
\(c_4(n)\)와 \(d_2(n)\) 모두 \(n\)에 의해서만 결정되는 상수이므로 \( \hat\sigma_r =r/d_2(n)\), \( \hat\sigma_s =s/c_4(n)\)라고 하면 \(\hat\sigma_r\), \(\hat\sigma_s\) 모두 불편추정량이며, 서로 우열이 없음을 알 수 있다.
2.2. 분산 비교
그 다음으로 생각난 것은 분산이다. 특정 n을 기준으로 \(\hat\sigma_r\)과 \(\hat\sigma_s\)의 분산이 어떻게 달라지는가? 먼저 식 (1)과 식 (2)를 이용하여 \(Var(\hat\sigma_r)\)를 구한다.
\begin{eqnarray*} Var(\hat\sigma_r)&=& Var\left(\ \frac{r}{d_2(n)} \right) \\[3pt] &=& \frac{1}{d_2^2(n)} \left\{ E(r^2)-E^2(r) \right\} \\[3pt] &=& \frac{1}{d_2^2(n)} \left\{ \int_{0}^{\infty}2r \left(1- n\int_{-\infty}^{\infty}(\Phi(v+r)-\Phi(v))^{n-1}\Phi'(v)dv \right) dr -d_2^2(n)\right\}\sigma^2 \\[3pt] &\equiv& d_3(n)\sigma^2 \end{eqnarray*}
\(Var(\hat\sigma_r)\)은 정규분포와 \(\chi^2-\)분포의 관계를 이용하여 구한다.
\begin{eqnarray*} Var(\hat\sigma_r)&=&Var\left( \frac{s}{c_4(n)} \right) \\[3pt] &=&\frac{1}{c_4^2(n)}\left\{ E(s^2)-E^2(s)\right\} \\[3pt] &=&\frac{1}{c_4^2(n)}(1-c_4^2(n))\sigma^2 \\[3pt] &\equiv&c_5(n)\sigma^2 \end{eqnarray*}
\(d_3(n)\)과 \(c_5(n)\) 모두 대소를 구분할 정도의 근사값은 구할 수 있다. R로 정수 \(n\in[2,50]\)에 대하여 \(d_3(n)/c_5(n)\)의 그래프를 그려보자. 결과는 아래와 같다. 단, \(\sigma=1\)로 하며 그래프를 그리기 위한 코드를 첨부한다.
\(n=2\)일때는 분산이 서로 같고 3 이상의 \(n\)에 대하여 \(\hat\sigma_s\)가 더 우월하다는 것을 알 수 있다. 작은 \(n\)에 대하여 \(r\)이 어떠한 이점을 가지고 있는지 알기 어려웠다.
3. \(r\)이 \(s\)보다 좋은 이유
계속해서 이유를 찾고 찾다가 한 책에서 그 이유를 발견했다. 3
Traditionally, quality engineers have preferred the R chart to the s chart because of the simplicity of calculating R from each sample. The availability of hand-held calculators with automatic calculation of s and computers at workstations to implement control charts on site have eliminated any computational difficulty.
사실 \(r\)이 \(s\)보다 계산하기 쉽다는 것은 이미 알고 있었고 위키피디아의 Xbar-R chart 등에서 꾸준이 본 내용이기도 했다. 하지만 나는 SPC를 시스템으로 접근하고 있었기 때문에 계산이 쉽다는 말 자체를 이해하지 못했다. 그런데 Traditionally라는 단어를 보자마자 SPC가 1920년대에 아이디어가 나왔다는 것을 떠올렸다. 그 당시에는 \(r\)이 가지고 있는 계산상의 이점이 통계적인 약점보다 두드러졌을 것이다.
결국 \(r\)을 사용하는 이유는 관습 때문이었다. 이젠 더이상 쓸 필요가 없는 것이다. 누군가가 말한대로 컨텍스트는 가고 텍스트만 남은 꼴이다.
4. 마치며
\(E(r)\) 및 \(Var(r)\)은 위의 식보다 더 간소하게 표현할 수 있다. Barbosa 등(2013) 및 Tippet (1925) 4에 그 내용이 있다. 안타깝게도 나는 5En taro Adun하여 이해하지 못했으나 누군가는 할 수 있을 것이다.
허무한 결론이지만 어찌됬든 이유를 알았다는 점은 만족스러웠다. 또한 이유를 알아내는 과정에서 많은 공식을 증명하면서 수식 전개를 연습했다는 것도 좋았다. 그냥 버리기는 아까우니 증명한 공식은 차후에 따로 포스팅을 할 예정이다.
- 출처는 http://www.sixsigmatrainingfree.com/statistical-process-control-charts.html이며 가독성을 위하여 붉은 상자를 추가하였다. [본문으로]
- 각 용어에 대한 설명도 이번 포스팅에 대한 주제가 아니므로 링크로 대체한다. [본문으로]
- Introduction to Statistical Quality Control, Wiley; 6 edition, Douglas C. Montgomery, 2008, 254p [본문으로]
- Range Control Charts Revisited: Simpler Tippett-like Formulae, Its Practical Implementation, and the Study of False Alarm, 2013, Emanuel Pimentel Barbosa 등, Communication in Statistics- Simulation and Computation 42(2) [본문으로]
- On the Extreme Individuals and the Range of Samples from a Normal Population. 1925, Tippett, Biometrika, vol 17, 364-387 [본문으로]
'통계' 카테고리의 다른 글
[Bayes] 베이지안 문제(몬티홀 등) (0) | 2018.02.03 |
---|---|
작성중 (0) | 2017.03.01 |
주성분분석(Principal Component Analysis; PCA)에 관하여 (0) | 2017.01.30 |
표본 분산의 분산 (5) | 2017.01.16 |
공분산과 누적분포함수 간의 관계 (0) | 2017.01.05 |