본문 바로가기

Data science/Statistics

[통계학] 확률과 확률분포 다시보기

3장 확률과 확률분포


1. 확률의 정의

  • 표본공간, 사건, 합사건($A\cup B$), 곱사건($A\cap B$), 여사건($A^c$), 배반사건
  • 배반사건은 독립사건과는 완전히 다른 개념이다. 배반 사건은 서로 같이 일어날 수 없으나 독립 사건은 서로 같이 일어날 수도 있다.
  • 확률은 표본공간에서 관심있는 사건이 일어나는 경우를 의미한다. $P(A)= {m \over N}$
  • 확률의 성질
    • $P(S)=1$
    • $P(A \cup B) = P(A)+P(B)-P(A \cap B)$
    • $P(A^c)=1-P(A)$
    • $A\subset B\text{이면 } P(A)\le P(B)$

2. 조건부확률과 독립사건

  • 조건부 확률 : 특정사건 A가 일어났을 때 B가 일어날 확률. 표본공간이 S에서 A로 좁아졌다는 의미이다.
    $P(B|A)={P(A \cap B)\over P(A)}$
    위 식에서 분모가 $P(A)$가 된 것을 볼 수 있다.
  • 조건부 확률의 정의에서 다음의 식을 도출할 수 있다.
    $P(A\cap B)=P(A|B)P(B)=P(B|A)P(A)$
  • 전확률공식 : 특정사건의 확률을 직접 구하기 어려운 경우에 사용한다. 식만 보면 그냥 수식으로 장난을 치는 것 같다. 그러나 그 의미를 음미해볼 필요가 있다. 그 사건을 여러 경우로 나누어 구한 뒤 이들의 합을 구하여 그 사건의 확률을 구해내는 것이다. 공식을 외우진 않았지만 알고보니 나도 직관적으로 이렇게 확률을 구하고 있었다.
    $P(B)=P(B|A_1)P(A_1)+P(B|A_2)P(A_2)+...+P(B|A_n)P(A_n)$
  • 독립 : 사건 A와 사건 B가 독립이란 말은 A가 일어나더라도 B에 영향을 미치지 않는 것을 의미한다. 배반사건과 단어적 의미로인해 헷갈리는 경우가 있었는데 둘은 다른 것이다. 배반사건은 동시에 일어날 수 없지만 독립은 동시에 일어날 수 있다.
    $P(B|A)=P(B)$
    이를 적용하면 A와 B가 독립일 때 A와 B의 Joint 확률은 다음과 같다.
    $P(A\cap B)=P(A|B)P(B)=P(B|A)P(A)=P(A)P(B)$
    즉, 독립이면 둘의 확률을 그냥 곱하면 Joint확률이 된다.

3. 확률변수와 확률분포

  • 확률 변수(Random variable) : 이름은 변수지만 함수를 의미한다. 표본 공간에서의 실수 값에 대해 그 실수가 출현할 확률을 mapping한다. 보통은 $X, Y$ 처럼 대문자로 표기한다. (각각의 값들은 소문자로 표시.)
  • 확률 분포(Probability distribution) : 특정 확률 변수($X$)의 모든 값들($x_1, x_2,..., x_n$)에 mapping되는 확률 값들
    ($P_{X=x_1}, P_{X=x_2}..., P_{X=x_n}$)의 분포를 의미한다. 확률분포의 확률들을 모두 더하면 당연히 1이 된다.
  • 확률변수의 값들을 셀 수 있으면 이산확률변수, 셀 수 없으면 연속확률변수라 한다.
  • $x$에 대한 확률 분포를 함수로 $p(x)$라고 표기할 수 있다.
  • 이산확률변수의 $p(x)$는 PMF(Probability Mass Function), 연속확률변수의 $p(x)$는 PDF(Probability Density Function)이라고 한다.
  • 연속확률변수에서 확률값은 구간에서의 넓이가 된다. 따라서 한 점에서의 넓이는 0이므로 확률이 0이되고, $-\infty$~$\infty$에서의 넓이의 합은 1이다.

4. 대표값과 그 성질 : 기대값, 분산, 표준편차

  • 기대값(Expectation) : 확률변수 $X$의 각각의 값들과 그 확률을 곱하여 모두 더한 것. 평균적으로 확률변수가 가질 수 있는 값을 의미한다.
    $$
    E(X) =
    \begin{cases}
    \sum_{모든x}\ xp(x) &\mbox{(이산확률변수)}\\
    \int_{-\infty}^{\infty}\ xp(x)dx &\mbox{(연속확률변수)}
    \end{cases}
    $$
  • 기대값은 $\sum$이기 때문에 다음과 같은 성질을 가진다.
    $E(aX+b)=aE(X)+b$
    $E[c_1g_1(X)+c_2g_2(X)]=c_1E[g_1(X)]+c_2E[g_2(X)]$
    즉, 각각의 확률 변수들에 상수가 곱해져있으면 그 합인 기대값도 상수만큼 곱해진 값이 된다. 그리고 두 확률변수를 합한 것의 기대값은 각각의 기대값을 합한 것이 된다.
  • 분산(Variance) : (확률 변수와 평균의 차)를 제곱한 값의 기대값을 의미한다. 단순히 확률 변수와 평균의 차이를 모두 합하면 0이 되어버리므로 제곱하여 합치는 것. 의미를 생각해보면 얼마나 퍼져있는지(산포정도)를 나타냄을 알 수 있다.
    $Var(X)=E[(X-\mu)^2]$
  • 분산의 정의를 전개하면 다음과 같은 식이 되는데 이를 활용하여 복잡한 분산 계산을 수월하게 할 수 있다.
    $Var(X)=E[(X-\mu)^2]=E[X^2-2\mu X+\mu^2]=E(X^2)-2\mu E(X)+\mu^2=E(X^2)-[E(X)]^2$
  • 분산은 다음과 같은 성질을 가진다.
    $Var(aX+b)=a^2Var(X)$
  • 표준편차(Standard Deviation) : 분산의 제곱근을 구한 것. 분산이 제곱한 값이므로 제곱근을 취해준다. 이는 확률변수와 평균의 차이의 절대값을 취한 것과 같다. 그 의미는 분산과 동일하게 얼마나 퍼져있는지(산포정도)를 의미하게 된다.
    $sd(X)=\sqrt{Var(X)}$
  • 표준화(Standardization) : 확률변수 X에 대해 그 평균 $\mu$를 뺀 다음 표준편차로 나누는 것을 표준화라고 한다. 표준화된 확률변수는 평균이 0, 분산이 1이 된다.

5. 두 확률변수의 결합분포

지금까지는 확률변수가 한 개였으나 2개 이상의 확률변수가 서로 관계를 가지는 경우가 있는데 이 때 각각의 확률변수의 분포만을 파악하는 것으로는 서로의 관계를 파악에 한계가 있다. 따라서 결합확률분포(Joint probability distribution)라는 새로운 개념을 정의하게 된다.

  • 결합확률분포(Joint probability distribution) : 두 개의 확률변수 X, Y에 대해 이들이 취하는 값들의 모든 짝의 확률의 분포를 의미함. 그 합은 역시 1이다. 그 밀도 함수는 $p(x, y)$로 표기한다.
  • 주변확률밀도함수 (Marginal probability density function) : 결합 확률 밀도 함수에서 하나의 변수에 대한 확률 밀도 분포를 꺼낸 것. 즉, 두 개의 확률변수가 있으면 하나에 대해 다 더해놓으면 나머지 하나에 대한 확률 변수가 되는 것이다.
  • $p(x, y)$는 다음과 같이 두 개의 주변확률밀도함수를 가진다.
    $p_1(x)=\sum_{모든y}p(x, y)$
    $p_2(y)=\sum_{모든x}p(x, y)$
  • 독립 개념의 확장 : 사건 $\rightarrow$ 확률변수
    두 확률변수 $X, Y$에서 모든 $x, y$가 서로 독립이라면 두 확률변수$X, Y$는 서로 독립이다. 독립일 경우에 둘의 결합 확률분포는 두 확률분포의 곱으로 표현된다.
    $p(x, y)=p_1(x)p_2(y)$

6. 공분산과 상관계수

우리는 두 확률변수 $X, Y$의 연관성을 알고 싶다. 그 연관성을 표현하기 위해 정의된 개념이 공분산상관계수이다. 이를 설명하기 위해 두 확률변수 $X, Y$의 평균을 각각 $\mu_1, \mu_2$라 하고 표준편차를 각각 $\sigma_1, \sigma_2$라고 가정하자.

  • 공분산(Covariance) : 확률변수 $X$의 편차와 $Y$의 편차의 곱의 기대값이다.
    $Cov(X,Y)=E[(X-\mu_1)(Y-\mu_2)]=\sum_{x, y}p(x,y)[(X-\mu_1)(Y-\mu_2)]$
  • 그 의미를 생각해보면 $X$의 편차와 $Y$의 편차의 부호가 같을 때 둘의 곱은 양수가 된다. 반면 부호가 서로 다르다면 음수가 된다. 그러나 이 때 두 확률 변수의 기준이 다르기 때문에 그 크기 기준은 서로 다를 수 있다. 그래서 상관계수 개념을 도입한다.
  • 상관계수(Correlation coefficient) : 공분산을 각 확률변수의 표준편차로 나누어준 것을 상관계수라고 정의한다.
    $Corr(X,Y)=E\left[\left( X-\mu_1\over \sigma_1\right)\left( Y-\mu_2\over \sigma_2\right)\right]=\sum_{x, y}p(x,y)\left[\left({(X-\mu_1)\over \sigma_1}\right)\left({(Y-\mu_2)\over \sigma_2}\right)\right]$
  • 상관계수의 정의를 보면 각각의 확률변수의 편차를 표준편차로 나눠주어 각각의 크기에 대해 표준화하였다. 위 식에서 $X, Y$의 편차가 서로 같은 부호를 가진다면 표준화된 각각의 확률변수의 곱은 양의 값을 가질 것이고 서로 다른 부호를 가진다면 표준화된 각각의 확률변수의 곱은 음의 값을 가질 것이다. 이를 통해 확률변수 $X$의 증감에 대한 $Y$의 증감의 방향과 정도를 측정해볼 수 있다. 즉 두 확률변수 사이의 직선 관계가 어느정도로 강하며 방향은 어떤지를 나타낸다.
  • 상관계수는 -1이상 1이하의 값을 가진다. (추가증명에 대해 공부 필요)
  • 공분산과 상관계수의 정의로부터 많은 성질들을 유도해낼 수 있다.
    $Cov(X, Y)=E(XY)-E(X)E(Y)$
    $Cov(aX+b, cY+d)=acCov(X, Y)$
    $$
    Corr(aX+b, cY+d)=
    \begin{cases}
    Corr(X,Y)&\mbox{ac>0인 경우}
    \\ -Corr(X,Y)&\mbox{ac<0인 경우}
    \end{cases}
    $$
    $Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)$
    $Var(X-Y)=Var(X)+Var(Y)-2Cov(X,Y)$
  • 두 확률변수가 서로 독립인 경우 다음의 성질을 가진다.
    $E(XY)=E(X)E(Y)$
    $Cov(X,Y)=0, Corr(X,Y)=0$
    $Var(X\pm Y)=Var(X)+Var(Y)$

#요약

'확률과 확률분포'의 흐름은 다음과 같이 진행되었다.

  • 사건 : 사건의 정의
  • 사건단위의 확률 : 확률의 정의
  • 확률변수 : 여러 사건들의 모음
  • 확률분포 : 여러 사건들의 확률
  • 확률분포의 해석(대표값) : 확률분포의 해석
  • 결합확률분포 : 확률변수 개수의 확장, 2개 이상으로
  • 결합확률분포의 해석(대표값) : 확률변수가 2개일 때 그 해석

위에서 정리한 내용은 영지문화사 '일반통계학'을 참조하여 개인적으로 공부한 내용을 정리한 것입니다.