5. 확률적 분석과 랜덤화된 알고리즘

5.2 지표 확률 변수

5. 확률적 분석과 랜덤화된 알고리즘

통계에 관한 기초 용어 설명

확률함수

어떤 사건 X가 일어날 확률을 Pr(X)라고 표현한다. 주사위를 던져서 1이 나오는 사건을 A, 짝수가 나오는 사건을 B라 하면

\[Pr(A) = \frac16 , \ \ Pr(B) = \frac12\]

라고 표현할 수 있다.

기댓값

각 사건이 벌어졌을 때의 이득과 그 사건이 벌어질 확률을 곱한 것을 전체 사건에 대해 합한 값이다. 예를 들어 500원 동전을 던져서 앞면이 나오면 500원을 얻는다고 해보자. 앞면이 나올 확률 X는 2분의 1, 즉 50%이다. 따라서

\[E[X] = 500*\frac12=250\]

라고 표현할 수 있다.

5.2 지표 확률 변수

표본 공간 S와 사건 A가 주어졌을 때 사건 A에 관한 지표 확률 변수 I{A}는 다음과 같이 정의된다.

I{A} = 1 사건 A가 일어날 경우

0 사건 A가 일어나지 않은 경우

예를 들어, 앞뒤가 동일한 동전을 던졌을 때 앞면이 나오는 기대 횟수에 대해 생각해보자. 앞, 뒤 둘 중 하나일 것이다. 표본 공간 S = { H, T } 이고, 이에 대한 확률 변수 Y는 H와 T를 각각 1/2의 확률로 갖도록 정의할 수 있다.이런 경우 Y = H로 표현되는, 즉 동전의 앞면이 나올 경우에 대한 지표 확률 변수 X_H로 를 정의할 수 있다.이 변수는 앞면이 나오면 1, 그렇지 않으면 0이다.

X_H = 1{H} = 1 H가 일어날 경우

0 T가 일어날 경우( H가 안일어나면 뒷면이니까)

동전을 한번 던졌을 때 앞면이 나올 경우의 기댓값

은 지표 변수 X_h의 기댓값과 일치한다.

\[E[X_H]=E[I{H}] \\ = 1·Pr{H} + 0·Pr{T} \\ = 1·(1/2)+0·(1/2) \\ = 1/2\]

따라서 동전을 한 번 던질 경우 앞면이 나올 확률은 1/2이다. 사건 A에 관계된 지표 확률 변수의 기댓값은 사건 A가 발생할 확률과 일치한다.

보조정리 5.1

표본 공간 S와 표본 공간 안의 사건 A가 주어졌을 때

\[X_A = I{A}라 하자. \ \ 그러면 \\ E[X_A]=Pr{A}가 \ \ 성립한다.\]

지표 확률 변수를 이용한 고용 문제 분석

HIRE-ASSISTANT

best = 0 // 0번은 가장 낮은 점수를 갖는 가상의 지원자다.
for i 1 to n
	지원자 i를 면접한다
	if 지원자 i가 지원자 best 보다 나은가?
		best = i
		지원자 i를 고용한다.

전 단원에서 공부한 새로운 직원을 뽑게 되는 횟수에 대한 기댓값을 계산해보자. 지원자들은 무작위 순서로 온다고 가정한다. X를 새로운 직원을 고용한 횟수에 대한 확률 변수라 하자.

\[E[X]= \sum^n_{x=1}x·Pr{X=x}\]

계산을 단순화하기 위해 지표 확률 변수를 대신 사용하자.

새 직원의 고용 횟수에 대한 변수 하나를 통해 E[X]를 계산하는 대신에 지표 확률 변수를 이용해 계산하기 위해 각 지원자의 고용 여부를 나타내는 n개의 변수를 정의한다. 다시 말해, X_i를 i번째 지원자가 고용되었는지에 대한 지표 확률 변수로 정의한다.

X_i = I{지원자 i가 고용됨}

= 1 지원자i가 고용될 경우

= 0 지원자i가 고용되지 않을 경우

그리고 다음 식이 성립한다.

X = X_1 + X_2 + X_3 + … + X_n

보조정리 5.1에 의해 다음 식이 성립한다.

E[X_i] = Pr{지원자i가 고용됨}

HIRE-ASSISTANT의 5-6행을 수행할 때 확률을 계산해야 한다. 6행에서 지원자 i는 1부터 i-1까지 모든 지원자보다 우수할 때이다. 각 지원자는 무작위 순서로 오므로 앞의 i명의 지원자 각각이 가장 뛰어난 직원일 가능성은 같다. 따라서 i번째 지원자가 1번부터 i-1번까지의 모든 지원자들보다 뛰어날 확률은 1/i 이고 고용될 확률 역시 1/i이다. E[X]를 계산해보자.

\[E[X]=E[\sum^n_{i=1}X_i] \\ = \sum^n_{i=1}E[X_i] \\ =\sum^n_{i=1}{1/i} \\ =ln(n)+O(1)\]

n명의 지원자를 면접하지만 실제로 고용하는 인원은 평균적으로 ln(n)명 뿐이다. 정리하면 다음과 같다.

보조정리 5.2

지원자가 무작위 순서로 온다고 할 때, HIRE-ASSISTANT 알고리즘은 총

\[O(c_hln(n))\]

의 평균 고용비용이 든다.

고용 비용의 기댓값은 최악의 고용 비용 O(c_h n )보다 상당히 향상된다.