통계, IT, AI

표본 분산의 분산 본문

통계

표본 분산의 분산

Harold_Finch 2017. 1. 16. 23:36

1. 들어가며

얼마전에 모표준편차를 추정하기 위하여 표본의 범위와 표본의 표준편차 중 무엇을 사용하는 것이 더 나은지 포스팅한 적이 있다. 그것을 밝히기 위해서 여러가지 공식을 증명했었지만 내용과 관련이 없는 것은 적지 않았다. 그렇게 증명한 것 중에 버리기 아까운 것을 적는다.


임의의 분포를 따르는 변수 X의 평균 E(X)이 0, 분산 Var(X)σ2, 제곱의 평균 E(X2)μ2 그리고 네제곱의 평균 E(X4)μ4라고 하자. E(X)을 0으로 설정한 이유는 일반성을 잃지 않으면서도 계산의 복잡성을 낮추기 위함이다. 독립적인 n개의 sample로 계산한 표본 분산 s2in(xix¯)2/(n1)라고 할 때 표본 분산의 분산 Var(s2)는 다음과 같다.

Var(s2)=μ4nn3n(n1)μ22

2. 증명

Var(s2)=E(s4)E2(s2)이므로 E(s4)E2(s2)를 각각 구한다. 먼저 E(s4)를 구하자.

E(s4)=E(1n1i=1n(xix¯)2)2=1(n1)2E(i=1n(xi22xix¯+x¯2))2=1(n1)2E(i=1nxi2nx¯2)2=1(n1)2E((i=1nxi2)22nx¯2i=1nxi2+n2x¯4)(1)=1(n1)2[E(i=1nxi2)22nE((i=1nxi)2i=1nxi2)+1n2E(i=1nxi)4]


각 항을 식 (2),(3),(4)와 같이 구하자.


(2)E(i=1nxi2)2=E(i=1nxi4+ijxi2xj2)=nμ4+n(n1)μ22


E((i=1nxi)2i=1nxi2)=E((i=1nxi2+ijxixj)i=1nxi2)=E(i=1nxi4+ijxi2xj2+ijxixji=1nxi2)=E(i=1nxi4+ijxi2xj2)E(ijxixji=1nxi2)includes E(X)(3)=nμ4+n(n1)μ22


E(i=1nxi)4=E((i=1nxi)2)2=E(i=1nxi2+ijxixj)2=E((i=1nxi2)2+2i=1nxi2ijxixj+(ijxixj)2)=E(i=1nxi4+ijxi2xj2+2ijxi2xj2)E(X) is included in the other terms(4)=nμ4+3n(n1)μ22


(2),(3),(4)(1)에 대입하여 E(s4)=μ4/n+(n22n+3)/((n1)n)μ22를 얻는다.


이제 E2(s2)를 구하자.

E2(s2)=E2(1n1i=1n(xix¯)2)=E2(1n1(i=1nxi2nx¯2))=(1n1(i=1nE(xi2)nE(x¯2)))2=(1n1(i=1nE(xi2)1nE(i=1nxi2+ijxixj)))2=(1n1(nμ2μ2))2(5)=μ22


따라서,

Var(s2)=E(s4)E2(s2)=μ4n+n22n+3n(n1)μ22μ22=μ4nn3n(n1)μ22

3. 마치며

임의의 분포에 대하여 성립하기 때문에 그 분포의 2nd, 4th Central moment만 구할 수 있다면 표본 분산의 분산을 쉽게 계산할 수 있다. 예를 들어 XN(0,σ2)일때 2nd, 4th Central moment는 각각 σ2,3σ4이므로 Var(s2)=2/(n1)σ4임을 알 수 있다. 물론 정규분포와 χ2 분포와의 관계를 이용해서도 구할 수 있다.


오랜만에 어렵진 않지만 복잡한 계산 연습을 했다고 생각한다.

Comments