통계, IT, AI

공분산과 누적분포함수 간의 관계 본문

통계

공분산과 누적분포함수 간의 관계

Harold_Finch 2017. 1. 5. 23:35

1. 들어가며 

얼마전에 모표준편차를 추정하기 위하여 표본의 범위와 표본의 표준편차 중 무엇을 사용하는 것이 더 나은지 포스팅한 적이 있다. 그것을 밝히기 위해서 여러가지 공식을 증명했었지만 내용과 관련이 없는 것은 적지 않았다. 그렇게 증명한 것 중에 버리기 아까운 것을 적는다. 


어떤 확률 변수 \(X\)와 \(Y\)의 결합누적분포함수(Joint Cumulative Distribution Function; Joint CDF)를 \(F_{XY}(x,y)\)라 하고 \(X\)와 \(Y\)의 CDF를 각각 \(F_X(x)\), \(F_Y(y)\)라고 하면 \(X\)와 \(Y\)의 공분산(Covariance)과 CDF는 아래와 같은 관계를 갖는다.

$$Cov(X,Y)=\int _{R \times R}F_{XY}(x,y)-F_X(x)F_Y(y)dxdy$$

2. 증명

\begin{eqnarray*} 2Cov(X,Y) &= & 2\left ( E(XY)-E(X)E(Y) \right ) \\ &=& E(X_1Y_1)-E(X_1)E(Y_2)-E(X_2)E(Y_1)+ E(X_2Y_2) \\ &=& E\left [ (X_1-X_2)(Y_1-Y_2) \right ] \\ &=& E\left [ \int _{R \times R} \left ( I(u\leq X_1) - I(u\leq X_2) \right )\left ( I(v\leq Y_1) - I(v\leq Y_2) \right )dudv \right ] \\ &=& E\left [ \int _{R \times R} I(u\leq X_1)I(v\leq Y_1) - I(u\leq X_1)I(v\leq Y_2) \\ \quad - I(u\leq X_2)I(v\leq Y_1) +I(u\leq X_2)I(v\leq Y_2)dudv \right ] \\ &=& 2\int_{R \times R} E\left [ I(u\leq X_1)I(v\leq Y_1)\right ]-E\left [ I(u\leq X_1)\right ]E\left [ I(v\leq Y_2)\right ]dudv \\ &=& 2\int_{R \times R} P\left ( u\leq X,v\leq Y)\right )-P\left ( u\leq X\right )P\left ( v\leq Y\right )dudv \\ &=& 2\int _{R \times R}F_{XY}(x,y)-F_X(x)F_Y(y)dxdy \quad\blacksquare \end{eqnarray*}

3. 마치며

직관적으로 와닿지 않는 관계라서 증명하는데 시간이 오래 걸렸다. 증명하고 나서도 "의미"를 꼬집어 말하기 어렵다.

'통계' 카테고리의 다른 글

[Bayes] 베이지안 문제(몬티홀 등)  (0) 2018.02.03
작성중  (0) 2017.03.01
주성분분석(Principal Component Analysis; PCA)에 관하여  (0) 2017.01.30
표본 분산의 분산  (3) 2017.01.16
표본 범위와 표본 표준편차 비교  (0) 2016.10.12
Comments