통계, IT, AI

표본 범위와 표본 표준편차 비교 본문

통계

표본 범위와 표본 표준편차 비교

Harold_Finch 2016. 10. 12. 23:22

1. 개요

이것저것을 하다보니 통계적 공정 관리(Statistical Process Control; SPC)를 접할 일이 있었다. SPC란 통계적인 방법론을 사용하여 품질을 관리하는 시스템이다. 1920년대 초반에 아이디어가 나왔고 지금까지 많은 공장에서 사용되고 있다. SPC의 구체적인 내용은 이번 포스팅의 주제가 아니므로 다루지 않고 링크로 대체한다. SPC에서 나의 관심을 끈 것은 아래와 같은 그림이었다.[각주:1] 

 


Sample size(n)가 2 이상, 10 미만인 경우 Xbar-R chart를, 10 이상일 때에는 Xbar-S chart를 사용하라고 한다.[각주:2] 즉, n이 작을 때에는 표본의 범위(r)로 모표준편차(σ)를 추정하고 n이 클 때에는 표본의 표준편차(s)로 σ를 추정하자는 것이다.

r=max(xi)min(xi) s=s2=1n1i=1n(xix¯)2

r을 이용한 σ의 추정량(estimator)을 σ^r, s를 이용한 σ의 추정량을 σ^s라고 하자. 그렇다면 n의 크기에 따른 각 추정량의 성질이 어떻게 변하길래 그러한 기준이 생긴 것일까? XN(0,σ2)를 가정하고 진행해보자.


2. 어떤 추정량이 더 좋은 추정량인가?

2.1. 불편(unbiased)성 비교


가장 먼저 떠오르는 것은 rs의 기대값이 무엇이냐는 것이다. 만약 Bias가 있다면, correction이 가능한지도 궁금했다. E(r)를 구하기 전에 필요한 두가지 공식을 정리하자. 


임의의 Random Variable X의 누적분포함수(Cumulative Distribution Function; cdf)를 F(x), 확률밀도함수(Probability Density function; pdf)를 fX(x)라고 하면 0이 아닌 실수 m에 대하여 아래의 식이 성립한다.


(1)E(Xm)=0mxm1(1F(x))dx+0mxm1F(x)dx


r의 cdf FR(r)는 아래와 같다.


(2)FR(r)=n(F(v+r)F(v))n1fX(v)dv


(1)과 (2)를 이용하면 E(r)을 구할 수 있다. 단, Φ는 표준정규분포의 cdf이다.

E(r)=σ01n(Φ(v+r)Φ(v))n1Φ(v)dvdrd2(n)σ


E(s)는 정규분포와 χ2 분포의 관계를 이용하여 쉽게 구할 수 있다. 

E(s)=σ2n1E((n1)s2σ2)=σn10x12(n1)/2Γ((n1)/2)x(n1)/21exp(x/2)dx=σn12n/2Γ(n/2)2(n1)/2Γ((n1)/2)0x12n/2Γ(n/2)xn/21exp(x/2)dx=σ2n1Γ(n/2)Γ((n1)/2)c4(n)σ


c4(n)d2(n) 모두 n에 의해서만 결정되는 상수이므로 σ^r=r/d2(n), σ^s=s/c4(n)라고 하면 σ^r, σ^s 모두 불편추정량이며, 서로 우열이 없음을 알 수 있다. 


2.2. 분산 비교


그 다음으로 생각난 것은 분산이다. 특정 n을 기준으로 σ^rσ^s의 분산이 어떻게 달라지는가? 먼저 식 (1)과 식 (2)를 이용하여 Var(σ^r)를 구한다.

Var(σ^r)=Var( rd2(n))=1d22(n){E(r2)E2(r)}=1d22(n){02r(1n(Φ(v+r)Φ(v))n1Φ(v)dv)drd22(n)}σ2d3(n)σ2


Var(σ^r)은 정규분포와 χ2분포의 관계를 이용하여 구한다.

Var(σ^r)=Var(sc4(n))=1c42(n){E(s2)E2(s)}=1c42(n)(1c42(n))σ2c5(n)σ2

d3(n)c5(n) 모두 대소를 구분할 정도의 근사값은 구할 수 있다. R로 정수 n[2,50]에 대하여 d3(n)/c5(n)의 그래프를 그려보자. 결과는 아래와 같다. 단, σ=1로 하며 그래프를 그리기 위한 코드를 첨부한다. 

range_issue.r



n=2일때는 분산이 서로 같고 3 이상의 n에 대하여 σ^s가 더 우월하다는 것을 알 수 있다. 작은 n에 대하여 r이 어떠한 이점을 가지고 있는지 알기 어려웠다. 


3. rs보다 좋은 이유

계속해서 이유를 찾고 찾다가 한 책[각주:3]에서 그 이유를 발견했다.


Traditionally, quality engineers have preferred the R chart to the s chart because of the simplicity of calculating R from each sample. The availability of hand-held calculators with automatic calculation of s and computers at workstations to implement control charts on site have eliminated any computational difficulty.


사실 rs보다 계산하기 쉽다는 것은 이미 알고 있었고 위키피디아의 Xbar-R chart 등에서 꾸준이 본 내용이기도 했다. 하지만 나는 SPC를 시스템으로 접근하고 있었기 때문에 계산이 쉽다는 말 자체를 이해하지 못했다. 그런데 Traditionally라는 단어를 보자마자 SPC가 1920년대에 아이디어가 나왔다는 것을 떠올렸다. 그 당시에는 r이 가지고 있는 계산상의 이점이 통계적인 약점보다 두드러졌을 것이다. 


결국 r을 사용하는 이유는 관습 때문이었다. 이젠 더이상 쓸 필요가 없는 것이다. 누군가가 말한대로 컨텍스트는 가고 텍스트만 남은 꼴이다. 


4. 마치며

E(r)Var(r)은 위의 식보다 더 간소하게 표현할 수 있다. Barbosa 등(2013)[각주:4] 및 Tippet (1925)[각주:5]에 그 내용이 있다. 안타깝게도 나는 En taro Adun하여 이해하지 못했으나 누군가는 할 수 있을 것이다.


허무한 결론이지만 어찌됬든 이유를 알았다는 점은 만족스러웠다. 또한 이유를 알아내는 과정에서 많은 공식을 증명하면서 수식 전개를 연습했다는 것도 좋았다. 그냥 버리기는 아까우니 증명한 공식은 차후에 따로 포스팅을 할 예정이다. 



  1. 출처는 http://www.sixsigmatrainingfree.com/statistical-process-control-charts.html이며 가독성을 위하여 붉은 상자를 추가하였다. [본문으로]
  2. 각 용어에 대한 설명도 이번 포스팅에 대한 주제가 아니므로 링크로 대체한다. [본문으로]
  3. Introduction to Statistical Quality Control, Wiley; 6 edition, Douglas C. Montgomery, 2008, 254p [본문으로]
  4. Range Control Charts Revisited: Simpler Tippett-like Formulae, Its Practical Implementation, and the Study of False Alarm, 2013, Emanuel Pimentel Barbosa 등, Communication in Statistics- Simulation and Computation 42(2) [본문으로]
  5. On the Extreme Individuals and the Range of Samples from a Normal Population. 1925, Tippett, Biometrika, vol 17, 364-387 [본문으로]

'통계' 카테고리의 다른 글

[Bayes] 베이지안 문제(몬티홀 등)  (0) 2018.02.03
작성중  (0) 2017.03.01
주성분분석(Principal Component Analysis; PCA)에 관하여  (0) 2017.01.30
표본 분산의 분산  (5) 2017.01.16
공분산과 누적분포함수 간의 관계  (0) 2017.01.05
Comments