통계, IT, AI

표본 분산의 분산 본문

통계

표본 분산의 분산

Harold_Finch 2017. 1. 16. 23:36

1. 들어가며

얼마전에 모표준편차를 추정하기 위하여 표본의 범위와 표본의 표준편차 중 무엇을 사용하는 것이 더 나은지 포스팅한 적이 있다. 그것을 밝히기 위해서 여러가지 공식을 증명했었지만 내용과 관련이 없는 것은 적지 않았다. 그렇게 증명한 것 중에 버리기 아까운 것을 적는다.


임의의 분포를 따르는 변수 \(X\)의 평균 \(E(X)\)이 0, 분산 \(Var(X)\)이 \(\sigma^2\), 제곱의 평균 \(E(X^2)\)이 \(\mu_2\) 그리고 네제곱의 평균 \(E(X^4)\)이 \(\mu_4\)라고 하자. \(E(X)\)을 0으로 설정한 이유는 일반성을 잃지 않으면서도 계산의 복잡성을 낮추기 위함이다. 독립적인 \(n\)개의 sample로 계산한 표본 분산 \(s^2\)이 \(\sum_{i}^{n}(x_i-\bar{x})^2/(n-1)\)라고 할 때 표본 분산의 분산 \(Var(s^2)\)는 다음과 같다.

$$Var(s^2)=\frac{\mu_4}{n}-\frac{n-3}{n(n-1)}\mu_{2}^2$$

2. 증명

\(Var(s^2)=E(s^4)-E^2(s^2)\)이므로 \(E(s^4)\)와 \(E^2(s^2)\)를 각각 구한다. 먼저 \(E(s^4)\)를 구하자.

\begin{eqnarray*} E(s^4) &= & E\left ( \frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2 \right )^2 \\ &=& \frac{1}{(n-1)^2}E\left( \sum_{i=1}^{n}(x_i^2-2x_i\bar{x}+\bar{x}^2) \right )^2 \\ &=& \frac{1}{(n-1)^2}E\left( \sum_{i=1}^{n}x_i^2-n\bar{x}^2 \right )^2 \\ &=& \frac{1}{(n-1)^2}E\left( \left(\sum_{i=1}^{n}x_i^2 \right )^2-2n\bar{x}^2\sum_{i=1}^{n}x_i^2 + n^2\bar{x}^4 \right ) \\ &=& \frac{1}{(n-1)^2}\left[ E\left(\sum_{i=1}^{n}x_i^2 \right )^2-\frac{2}{n}E\left( \left( \sum_{i=1}^{n}x_i\right)^2\sum_{i=1}^{n}x_i^2\right)+\frac{1}{n^2}E\left( \sum_{i=1}^{n}x_i\right)^4 \right ]\label{basic01}\tag{1} \end{eqnarray*}


각 항을 식 \((2)\),\((3)\),\((4)\)와 같이 구하자.


\begin{eqnarray*} E\left(\sum_{i=1}^{n}x_i^2 \right )^2 = E\left(\sum_{i=1}^{n}x_i^4 + \sum_{i \neq j}x_i^2x_j^2 \right )= n\mu_4+n(n-1)\mu_2^2\label{basic02}\tag{2} \end{eqnarray*}


\begin{eqnarray*} E\left( \left( \sum_{i=1}^{n}x_i\right)^2\sum_{i=1}^{n}x_i^2\right) &= & E\left( \left(\sum_{i=1}^{n}x_i^2 + \sum_{i \neq j}x_ix_j \right )\sum_{i=1}^{n}x_i^2\right) \\ &=& E\left( \sum_{i=1}^{n}x_i^4 + \sum_{i \neq j}x_i^2x_j^2+ \sum_{i \neq j}x_ix_j\sum_{i=1}^{n}x_i^2\right) \\ &=& E\left( \sum_{i=1}^{n}x_i^4 + \sum_{i \neq j}x_i^2x_j^2 \right)\because E\left(\sum_{i \neq j}x_ix_j\sum_{i=1}^{n}x_i^2\right) \text{includes } E(X) \\ &=& n\mu_4+n(n-1)\mu_2^2\label{basic03}\tag{3} \end{eqnarray*}


\begin{eqnarray*} E\left( \sum_{i=1}^{n}x_i\right)^4 &= & E\left( \left( \sum_{i=1}^{n}x_i\right)^2\right )^2 \\ &=&E\left( \sum_{i=1}^{n}x_i^2+\sum_{i \neq j}x_ix_j\right )^2 \\ &=& E\left( \left( \sum_{i=1}^{n}x_i^2\right )^2 +2\sum_{i=1}^{n}x_i^2\sum_{i \neq j}x_ix_j + \left( \sum_{i \neq j}x_ix_j\right)^2 \right) \\ &=& E\left( \sum_{i=1}^{n}x_i^4 +\sum_{i \neq j}x_i^2x_j^2 + 2\sum_{i \neq j}x_i^2x_j^2 \right) \because E(X) \text{ is included in the other terms} \\ &=& n\mu_4 + 3n(n-1)\mu_2^2\label{basic04}\tag{4} \end{eqnarray*}


\((2)\),\((3)\),\((4)\)를 \((1)\)에 대입하여 \(E(s^4)=\mu_4/n+(n^2-2n+3)/\left( (n-1)n\right)\mu_2^2\)를 얻는다.


이제 \(E^2(s^2)\)를 구하자.

\begin{eqnarray*} E^2(s^2) &= & E^2\left( \frac{1}{n-1} \sum_{i=1}^{n}(x_i-\bar{x})^2\right) \\ &=& E^2\left( \frac{1}{n-1} \left( \sum_{i=1}^{n}x_i^2-n\bar{x}^2\right)\right) \\ &=& \left( \frac{1}{n-1} \left( \sum_{i=1}^{n}E(x_i^2)-nE(\bar{x}^2)\right)\right)^2 \\ &=& \left( \frac{1}{n-1} \left( \sum_{i=1}^{n}E(x_i^2)-\frac{1}{n}E\left(\sum_{i=1}^{n}x_i^2+\sum_{i \neq j}x_ix_j\right)\right)\right)^2 \\ &=& \left( \frac{1}{n-1}\left(n\mu_2-\mu_2 \right )\right)^2 \\ &=& \mu_2^2\label{basic05}\tag{5} \end{eqnarray*}


따라서,

\begin{eqnarray*} Var(s^2)&=&E(s^4)-E^2(s^2) \\ &= & \frac{\mu_4}{n}+\frac{n^2-2n+3}{n(n-1)}\mu_2^2-\mu_2^2 \\ &=& \frac{\mu_4}{n}-\frac{n-3}{n(n-1)}\mu_{2}^2 \end{eqnarray*}

3. 마치며

임의의 분포에 대하여 성립하기 때문에 그 분포의 2nd, 4th Central moment만 구할 수 있다면 표본 분산의 분산을 쉽게 계산할 수 있다. 예를 들어 \(X\sim N(0,\sigma^2)\)일때 2nd, 4th Central moment는 각각 \(\sigma^2\),\(3\sigma^4\)이므로 \(Var(s^2)=2/(n-1)\sigma^4\)임을 알 수 있다. 물론 정규분포와 \(\chi^2\) 분포와의 관계를 이용해서도 구할 수 있다.


오랜만에 어렵진 않지만 복잡한 계산 연습을 했다고 생각한다.

Comments