일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 비샤몬당
- mnist
- backpropagation
- Convolutional Neural Network
- 딥러닝
- 히토요시
- 소인수분해
- 베이지안
- Python
- Autoencoder
- c#
- 역전파
- neural network
- SQL
- 소수
- project euler
- 자전거 여행
- 수달
- 오일러 프로젝트
- bayesian
- 전처리
- 합성곱 신경망
- 오토인코더
- 냥코 센세
- 역전파법
- deep learning
- CNN
- 신경망
- Gram matrix
- A Neural Algorithm of Artistic Style
- Today
- Total
통계, IT, AI
표본 분산의 분산 본문
1. 들어가며
얼마전에 모표준편차를 추정하기 위하여 표본의 범위와 표본의 표준편차 중 무엇을 사용하는 것이 더 나은지 포스팅한 적이 있다. 그것을 밝히기 위해서 여러가지 공식을 증명했었지만 내용과 관련이 없는 것은 적지 않았다. 그렇게 증명한 것 중에 버리기 아까운 것을 적는다.
임의의 분포를 따르는 변수 \(X\)의 평균 \(E(X)\)이 0, 분산 \(Var(X)\)이 \(\sigma^2\), 제곱의 평균 \(E(X^2)\)이 \(\mu_2\) 그리고 네제곱의 평균 \(E(X^4)\)이 \(\mu_4\)라고 하자. \(E(X)\)을 0으로 설정한 이유는 일반성을 잃지 않으면서도 계산의 복잡성을 낮추기 위함이다. 독립적인 \(n\)개의 sample로 계산한 표본 분산 \(s^2\)이 \(\sum_{i}^{n}(x_i-\bar{x})^2/(n-1)\)라고 할 때 표본 분산의 분산 \(Var(s^2)\)는 다음과 같다.
$$Var(s^2)=\frac{\mu_4}{n}-\frac{n-3}{n(n-1)}\mu_{2}^2$$
2. 증명
\(Var(s^2)=E(s^4)-E^2(s^2)\)이므로 \(E(s^4)\)와 \(E^2(s^2)\)를 각각 구한다. 먼저 \(E(s^4)\)를 구하자.
\begin{eqnarray*} E(s^4) &= & E\left ( \frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2 \right )^2 \\ &=& \frac{1}{(n-1)^2}E\left( \sum_{i=1}^{n}(x_i^2-2x_i\bar{x}+\bar{x}^2) \right )^2 \\ &=& \frac{1}{(n-1)^2}E\left( \sum_{i=1}^{n}x_i^2-n\bar{x}^2 \right )^2 \\ &=& \frac{1}{(n-1)^2}E\left( \left(\sum_{i=1}^{n}x_i^2 \right )^2-2n\bar{x}^2\sum_{i=1}^{n}x_i^2 + n^2\bar{x}^4 \right ) \\ &=& \frac{1}{(n-1)^2}\left[ E\left(\sum_{i=1}^{n}x_i^2 \right )^2-\frac{2}{n}E\left( \left( \sum_{i=1}^{n}x_i\right)^2\sum_{i=1}^{n}x_i^2\right)+\frac{1}{n^2}E\left( \sum_{i=1}^{n}x_i\right)^4 \right ]\label{basic01}\tag{1} \end{eqnarray*}
각 항을 식 \((2)\),\((3)\),\((4)\)와 같이 구하자.
\begin{eqnarray*} E\left(\sum_{i=1}^{n}x_i^2 \right )^2 = E\left(\sum_{i=1}^{n}x_i^4 + \sum_{i \neq j}x_i^2x_j^2 \right )= n\mu_4+n(n-1)\mu_2^2\label{basic02}\tag{2} \end{eqnarray*}
\begin{eqnarray*} E\left( \left( \sum_{i=1}^{n}x_i\right)^2\sum_{i=1}^{n}x_i^2\right) &= & E\left( \left(\sum_{i=1}^{n}x_i^2 + \sum_{i \neq j}x_ix_j \right )\sum_{i=1}^{n}x_i^2\right) \\ &=& E\left( \sum_{i=1}^{n}x_i^4 + \sum_{i \neq j}x_i^2x_j^2+ \sum_{i \neq j}x_ix_j\sum_{i=1}^{n}x_i^2\right) \\ &=& E\left( \sum_{i=1}^{n}x_i^4 + \sum_{i \neq j}x_i^2x_j^2 \right)\because E\left(\sum_{i \neq j}x_ix_j\sum_{i=1}^{n}x_i^2\right) \text{includes } E(X) \\ &=& n\mu_4+n(n-1)\mu_2^2\label{basic03}\tag{3} \end{eqnarray*}
\begin{eqnarray*} E\left( \sum_{i=1}^{n}x_i\right)^4 &= & E\left( \left( \sum_{i=1}^{n}x_i\right)^2\right )^2 \\ &=&E\left( \sum_{i=1}^{n}x_i^2+\sum_{i \neq j}x_ix_j\right )^2 \\ &=& E\left( \left( \sum_{i=1}^{n}x_i^2\right )^2 +2\sum_{i=1}^{n}x_i^2\sum_{i \neq j}x_ix_j + \left( \sum_{i \neq j}x_ix_j\right)^2 \right) \\ &=& E\left( \sum_{i=1}^{n}x_i^4 +\sum_{i \neq j}x_i^2x_j^2 + 2\sum_{i \neq j}x_i^2x_j^2 \right) \because E(X) \text{ is included in the other terms} \\ &=& n\mu_4 + 3n(n-1)\mu_2^2\label{basic04}\tag{4} \end{eqnarray*}
\((2)\),\((3)\),\((4)\)를 \((1)\)에 대입하여 \(E(s^4)=\mu_4/n+(n^2-2n+3)/\left( (n-1)n\right)\mu_2^2\)를 얻는다.
이제 \(E^2(s^2)\)를 구하자.
\begin{eqnarray*} E^2(s^2) &= & E^2\left( \frac{1}{n-1} \sum_{i=1}^{n}(x_i-\bar{x})^2\right) \\ &=& E^2\left( \frac{1}{n-1} \left( \sum_{i=1}^{n}x_i^2-n\bar{x}^2\right)\right) \\ &=& \left( \frac{1}{n-1} \left( \sum_{i=1}^{n}E(x_i^2)-nE(\bar{x}^2)\right)\right)^2 \\ &=& \left( \frac{1}{n-1} \left( \sum_{i=1}^{n}E(x_i^2)-\frac{1}{n}E\left(\sum_{i=1}^{n}x_i^2+\sum_{i \neq j}x_ix_j\right)\right)\right)^2 \\ &=& \left( \frac{1}{n-1}\left(n\mu_2-\mu_2 \right )\right)^2 \\ &=& \mu_2^2\label{basic05}\tag{5} \end{eqnarray*}
따라서,
\begin{eqnarray*} Var(s^2)&=&E(s^4)-E^2(s^2) \\ &= & \frac{\mu_4}{n}+\frac{n^2-2n+3}{n(n-1)}\mu_2^2-\mu_2^2 \\ &=& \frac{\mu_4}{n}-\frac{n-3}{n(n-1)}\mu_{2}^2 \end{eqnarray*}
3. 마치며
임의의 분포에 대하여 성립하기 때문에 그 분포의 2nd, 4th Central moment만 구할 수 있다면 표본 분산의 분산을 쉽게 계산할 수 있다. 예를 들어 \(X\sim N(0,\sigma^2)\)일때 2nd, 4th Central moment는 각각 \(\sigma^2\),\(3\sigma^4\)이므로 \(Var(s^2)=2/(n-1)\sigma^4\)임을 알 수 있다. 물론 정규분포와 \(\chi^2\) 분포와의 관계를 이용해서도 구할 수 있다.
오랜만에 어렵진 않지만 복잡한 계산 연습을 했다고 생각한다.
'통계' 카테고리의 다른 글
[Bayes] 베이지안 문제(몬티홀 등) (0) | 2018.02.03 |
---|---|
작성중 (0) | 2017.03.01 |
주성분분석(Principal Component Analysis; PCA)에 관하여 (0) | 2017.01.30 |
공분산과 누적분포함수 간의 관계 (0) | 2017.01.05 |
표본 범위와 표본 표준편차 비교 (0) | 2016.10.12 |