통계, IT, AI

[Bayes] 베이지안 문제(몬티홀 등) 본문

통계

[Bayes] 베이지안 문제(몬티홀 등)

Harold_Finch 2018. 2. 3. 23:05

1. 개요

    최근에 두가지 베이즈 문제에 대해서 생각할 기회가 있었다. 하나는 몬티홀 문제를 베이즈 룰을 사용하여 증명하는 것이었고 또 하나는 간단한 베이즈 문제였다.

2. 몬티홀 문제

    몬티홀 문제는 아주 널리 알려진 확률론 문제로 확률과 직관이 항상 일치하지는 않는다는 예시이다. 진행을 위해 문제를 간단히 소개한다.


    3개의 커튼 뒤에 염소 두마리와 스포츠카 한대가 있다. 도전자는 스포츠카가 어디에 있는지 모른다. 도전자가 3개의 커튼 중 하나를 선택하면, 스포츠카의 위치를 알고 있는 사회자가 염소가 있는 커튼을 열고 도전자에게 커튼을 바꿀 기회를 준다. 그렇다면 도전자는 선택을 바꾸는 것이 유리할까? 답은 "그렇다"라는 것이 잘 알려져 있다.


    왜 그럴까? 나는 그 답을 베이즈 정리를 사용하여 유도해보고 싶었다. 첫번째에 도전자가 선택한 커튼을 \(X_1\), 두번째에 사회자가 선택한 커튼을 \(X_2\)라고 정의하고 스포츠카를 C, 염소를 G라고 하자. 이 문제는 \(P(X_1=C|X_2=G)\)와 \(P(X_1=G|X_2=G)\)의 대소를 비교하는 문제이다. 두 사건은 여사건이기 때문에 \(P(X_1=C|X_2=G)\)를 구하면 된다. 먼저 \(P(X_1=C)=1/3\), \(P(X_1=G)=2/3\)임을 쉽게 알 수 있다. 그리고 사회자가 선택한 커튼이 염소였을때 도전자가 선택한 커튼이 스포츠카일 확률은 다음과 같다.


\begin{eqnarray*}P(X_1=C|X_2=G)&=&\frac{P(X_1=C \ and \ X_2=G)}{P(X_2=G)}\\&=&\frac{P(X_1=C)P(X_2=G|X_1=C)}{\sum_{K=(C,G)P(X_1=K)P(X_2=G|X_1=K)}}\\&=&\frac{1/3\times 1}{1/3\times 1+2/3\times 1/2}\\&=&\frac{1}{2}(??)\end{eqnarray*}


    \(1/2\)라는 값은 원하던 결과가 아니다. 도전자가 무엇을 선택하든 특별히 유리하지 않기 때문에 현재의 선택을 굳이 바꿀 필요가 없다는 것을 의미하기 때문이다. 그렇다면 어느 부분에서 틀린 것일까? 곰곰히 생각한 끝에 문제에서 그 답을 찾을 수 있었다. 도전자가 선택한 커튼이 무엇이든 사회자가 선택하는 커튼은 무조건 염소라는 것이다. 즉, \(P(X_2=G|X_1=C)=P(X_2=G|X_1=G)=P(X_2)=1\)이다. 이제 전개를 다시 하자.


\begin{eqnarray*}P(X_1=C|X_2=G)&=&\frac{P(X_1=C \ and \ X_2=C)}{P(X_2=G)}\\&=&\frac{P(X_1=C)P(X_2=G|X_1=C)}{P(X_2=G)}\\&=&P(X_1=C)\\&=&\frac{1}{3}\end{eqnarray*}


    \(P(X_1=G|X_2=G)=1-P(X_1=C|X_2=G)=2/3\)이며 이는 도전자가 처음의 선택을 바꾸는 것이 확률적으로 유리하다는 것을 의미한다. 몬티홀 문제와 베이즈 룰에 대해서 더 제대로 알 수 있는 기회가 되었다.

3. 간단한 베이즈 질문

    광고, 마케팅 분야에서 클릭률(CTR; Click-through rate)라는 지표가 있다. 광고가 노출된 횟수를 클릭된 횟수로 나눈 것을 의미하며 사용자의 반응을 관리하는 데 쓰인다. 내가 받은 질문은, 어떤 광고가 5번 노출되고 2번 클릭되었을 때 CTR을 구하는 것이었다. 나는 40%라고 대답했는데, 질문자는 광고 노출의 횟수가 적은데 그 40%라는 수치에 문제가 없는지 물었다. 나는 고민 끝에 베이지안을 사용하여 CTR에 대한 보수적인 prior를 부여하는 것이 좋겠다는 답변을 하였다. 그러자 질문자는 구체적인 답변을 요구하였으나 그 자리에서는 하지 못했다. 아쉬운 마음에 답변을 적어본다.


    \(P(p)\)를 CTR의 prior, \(P(D|p)\)를 likelihood, \(P(p|D)\)를 posterior라고 하자. 노출에 따른 클릭은 Bernoulli 시행으로 볼 수 있으며 priror는 beta distribution으로 보는 것이 자연스럽다. Prior의 hyper parameter를 \(\alpha\), \(\beta\)라고 하자.


\begin{eqnarray*}P(p|D) &\propto& P(D|p)P(p) \\ &\propto& \prod_{i}^{N}p^{y_i}(1-p)^{1-y_i}p^{\alpha-1}(1-p)^{\beta-1} \\ &\propto& p^{\sum y_i+\alpha-1}(1-p)^{N-\sum y_i+\beta-1} \\ &\propto& Beta(p;\sum y_i+\alpha,N-\sum y_i + \beta)\end{eqnarray*}


    이때 \(\alpha=\beta=1\)인 경우 prior는 uniform distribution이며 CTR에 대한 사전 정보가 없다는 것을 반영한다. \(\beta\)가 \(\alpha\)에 비하여 크다면 CTR이 낮다는 사전 정보가 있다는 것을 의미한다. 간단한 문제였지만 내공이 부족해 바로 답변하지 못한 것이 아쉽다.

'통계' 카테고리의 다른 글

작성중  (0) 2017.03.01
주성분분석(Principal Component Analysis; PCA)에 관하여  (0) 2017.01.30
표본 분산의 분산  (3) 2017.01.16
공분산과 누적분포함수 간의 관계  (0) 2017.01.05
표본 범위와 표본 표준편차 비교  (0) 2016.10.12
Comments