기초 통계분석 - 03 - 확률과 확률분포

'R 통계분석(제대로 알고 쓰는) - 이윤환저'의 책을 통해 기초 통계분석 학습

정민호정민호

1. 확률과 확률분포

1.1. 확률

1.1.1. 확률

  • 확률

    • 확률(確率, probability) : 가능성의 정도, (어떤 결정 등을) 굳힐 비율, (어떤 일이) 있을(사실일) 것 같은 개연성

  • 확률 용어

    • 확률실험(혹은 시행)

      • 확률실험(experiment) 또는 확률시행(trial)은 아래 3가지를 만족할 때

        • 표현 : Ε

        • (결과 구하기 위한) 어떤 실험을 통해 나타나는 결과를 알지 못함

        • 결과는 알지 못하지만 결과로 나타날 수 있는 가능한 경우를 알고 있음

        • 동일한 실험(각종 환경이 같은)을 몇 번이고 반복할 수 있음

    • 표본공간

      • 표본공간(sample space) : 출현 가능한 모든 결과들의 모임

        • 표현 : Ω

    • 사건

      • 사건(event) : 표본공간의 각 원소(출현 가능한 개별 결과)들의 부분집합

      • 표본점(sample point) : 시행의 한 결과

      • 근원사건(elementary event) : 어떤 사건의 하나의 표본점으로 이루어지는 (표본공간의 개별 결과가 하나인) 사건

        • 표현 : 영어 대문자(A, B, C, …​ 등)

      • 합사건 : 어떤 사건의 발생이 사건 A에서 일어나거나 혹은 사건 B에서 일어나는 것

        • 수식 : \$A uu B = { omega in Omega | omega in A or omega in B}\$

      • 곱사건 : 어떤 사건의 발생이 사건 A에서 일어나고 사건 B에서도 일어나는 사건, 즉 사건 A와 B가 동시에 일어나는 사건

        • 수식 : \$A nn B = { omega in Omega | omega in A and omega in B}\$

      • 여사건 : 어떤 사건이 발생하지 않을 사건

        • 수식 : \$A^{c} = { omega in Omega | omega !in A}\$

      • 배반사건 : 두 사건이 겹치는 부분이 없는 사건

        • 수식 : \$A nn B = O/\$

      • 독립사건 : 두 사건이 서로 발생에 영향을 끼치지 않을 때 두 사건은 서로 독립

        • 수식 : \$A _|_ B\$

      • 합사건, 곱사건, 여사건은 집합 연산의 교환법칙, 결합법칙, 분배법칙, 드 모르간의 법칙을 적용할 수 있음

  • 확률의 정의

    • 수학적 확률

      • 수식 : O ; Outcome의 약자

      • 어떤 시행의 결과로 나타날 수 있는 가능한 결과의 수

      • 각 결과들은 나타날 가능성이 동일하다는 가정(각 근원사건이 발생한 가능성은 동일함)

      • 동일한 각 결과들의 확률은 \${1} / {O}\$

    • 통계적 확률 : 수학적 확률을 통한 정의보다 수없이 많은 관찰을 통해 정의

      • 표현 : 실험횟수 N , 사건발생 n

      • 동일한 조건에서 같은 실험을 N번 반복

      • 사건 A가 모두 몇 번 발생했는지를 조사 : n

      • 사건 A가 발생할 확률 : \$P(A) = {n} / {N}\$

    • 확률 공리

      • 확률 공리(axioms of probability) : 경험상 인식을 확문적으로 밝힘에 있어 이론적으로 뒷받침하는 확률론의 기본 바탕

        • P(A)는 0과 1 사이의 값을 갖고 (0 ≤ P(A) ≤ 1)

        • 반드시 일어나는 사건(혹은 표본공간 전체)의 값은 1이며 (P(Ω)=1)

        • 서로 배반인 사건 \$A_{1}, A_{2}, A_{3}, ..., A_{n}, ...\$ 의 합칩합에 대해 다음을 만족하면,

        • \$P(uuu_{i=1}^{oo}A_{i}) = sum_{i=1}^{oo}P(A_{i})\$

        • 함수값 P(A)를 사건 A의 확률이라 함

  • 확률 법칙

    • 덧셈법칙

      • 합사건일 때 (A U B)

        • \$P(A uu B) = P(A) + P(B) - P(A nn B)\$

      • 배반사건일 때 (A n B = ø)

        • \$P(A uu B) = P(A) + P(B)\$

    • 곱셈법칙

      • 조건부 확률 : 두 사건 A와 B에 대해 사건 B가 발생했다는 조건 하에 사건 A가 발생할 확률

        • 표현 : P(A|B)

        • \$P(A|B) = {P(A nn B)} / {P(B)}, P(B) > 0\$

        • 사건 A와 B가 동시에 일어날 확률일 P(A n B)를 사건 B가 발생할 확률인 P(B)로 나눈 것

      • 곱셈법칙

        • 요약 : \$P(A nn B) = {(P(A nn B) = P(B) * P(A|B), P(A) > 0), (P(A nn B) = P(A) * P(B|A), P(B) > 0):}\$

        • 확률 P(A)는 0 부터 1까지 실수를 가지므로 아래의 식에서 분모 P(B)를 좌변으로 넘기며, 두 사건 A와 B의 곱집합의 확률 계산

          • \$P(A|B) = {P(A nn B)} / {P(B)}, P(B) > 0\$

          • \$P(B) * P(A|B) = P(A nn B), P(B) > 0\$

          • \$P(A nn B) = P(B) * P(A|B)\$

        • 두 사건 A와 B에서 사건 A가 조건으로 주어지는 조건부 확률 P(B|A)를 전개하며, 곱집합의 확률 계산

          • \$P(B|A) = {P(A nn B)} / {P(A)}, P(A) > 0\$

          • \$P(A nn B) = P(A) * P(B|A)\$

      • 독립사건일 경우의 곱셈법칙

        • 요약 : \${(P(B | A) = {P(A nn B)} / {P(A)} = {P(A) * P(B)} / {P(A)} = P(B)), (P(A | B) = {P(A nn B)} / {P(B)} = {P(A) * P(B)} / {P(B)} = P(B)):}, if A _|_ B\$

    • 여사건의 확률

      • 사건 A의 여사건 \$P(A^{c})\$은 아래와 같음

        • \$P(A) + P(A^{c}) = 1\$

        • \$P(A^{c}) = 1 - P(A)\$

1.1.2. 확률변수

  • 확률변수(random variable) : 표본공간(Ω)에서 각 원소를 실숫값에 대응 시키는 함수

    • 확률변수의 표현

      • 확률변수 : 알파벳 대문자 X, Y, Z, …​

      • 확률변수 실숫값 : 알파벳 소문자 x, y, z, …​

      • 확률변수 X가 값 x를 가질 때 X = x 로 표기

    • 확률변수의 종류

      • 이산형 확률변수(discrete random variable)

      • 연속형 확률변수(continuos random variable)

  • 확률변수의 평균과 분산

    • 확률변수의 평균, 기댓값

      • 평균

        • 표현 : \$bar X\$

        • 상수값 0, 1, 2 일 때 평균의 수식

          • 수식 : \$bar X = sum_{i=1}^{n}{1}/{n} * x_{i} = {1} / {3}(0 + 1 + 2) = 1\$

      • 기대값 : 확률변수의 평균

        • 표현 : E(X); E(확률변수)

        • 확률변수 X가 동전을 두번 던져 앞면이 나오는 횟수의 수식

          • 수식 : \$E(X) = sum_{i=1}^{3}x_{i} * P(X = x_{i}) = 0 * {1} / {4} + 1 * {2} / {4} + 2 * {1} / {4} = 1\$

        • 확률변수 X가 연속형일 경우 연속형 잘에 맞도록 단순 합이 아닌 적분 사용

          • 수식 : \$E(X) = int _{모든 x} x * P(X = x)dx\$

    • 확률변수의 분산

      • 분산 : 편차 제곱의 평균

        • 분산을 아래와 같이 편차 제곱의 기대값으로 구함

          • 수식 : \$Var(x) = E[(X - E(X))^{2} ]\$

        • 편차를 나타냄에 있어 확률변수의 평균, 즉 기대값을 사용하여 \$bar X\$ 대신 E(X)를 쓰고, 확률변수의 분산은 Var(확률변수) 로 표기

          • 수식 : \$Var(x) = E[(X - E(X))^{2} ] = sum_{모든 x}(x - E(X))^{2} * P(X = x)\$

          • 수식 : \$Var(X) = E(X^{2}) - E(X)^{2} = [sum_{모든 x} x^{2} * P(X = x)] - [E(X)]^{2}\$

        • 동전을 두 번 던져 앞면이 나오는 횟수의 분산 수식

          • 수식 : \$E(X^{2}) = sum_{i=1}^{3} x_{i}^{2} * P(X = x_{i}) = 0^{2} * {1} / {4} + 1^{2} * {2} / {4} + 2^{2} * {1} / {4} = {1} / {2} + {4} / {4} = {6} / {4}\$

        • 위 값에서 기대값의 제곱을 뺌(기대값은 1)

          • \$Var(X) = E(X^{2}) - E(X)^{2} = {6} / {4} - 1 = {2} / {4} = {1} / {2}\$

1.2. 분포함수

  • 분포함수(누적분포함수; cumulativ distribution function)

    • 표현 : \$F(x) = P(X <= x)\$

    • 확률변수 X가 가질 수 있는 임의의 실측값 x에 대해 다음과 같이 정의된 함수 F

    • 분포함수의 특성이 모수이며, 모수에 따라 분포함수의 모양이 결정됨

  • 확률분포

    • 확률변수 X가 실측값 x를 갖는 확률 (P(X = x)) 에 대한 함수 f(x) 로 나타냄

    • 이산형 : 확률질량함수(pmf; probability mass function)

    • 연속형 : 확률밀도함수(pdf; probability density function)

1.2.1. 베르누이 시행

  • 베르누이 시행(Bernoulli’s trial) : '성공’과 '실패' 두가지 결과가 나타는 확률실험

    • 표현 : Bernoulli(p)

    • 확률변수 X가 베르누이 싱행에 따라 성공일 때 1, 실패일 때 0을 가질 경우 확률질량함수는 아래와 같음

      • \$P(X=x) = f(x) = p^{x} * (1-p)^{1-x} , x={(성공 1), (실패 0) :}\$

    • 주사위를 던져 3의 배수의 눈이 나오면 성공(1), 아닐경우 실패(0)일 때

      • 성공 \$(X=1) : P(X=1)=p^{x=1} * (1-p)^{1-(x=1)=p}\$

      • 실패 \$(X=0) : P(X=0)=p^{x=0} * (1-p)^{1-(x=0)=1-p}\$

      • 확률변수 X가 1을 가질 확률은 p. 3의 배수일 경우 성공이므로 성공확률은 \$p={1}/{3}\$, 즉 확률변수 X가 1을 가질 확률은 \${1}/{3}\$

    • 베르누이 시행의 기대값(확률변수의 평균 = (E(확률변수)))

      • 표현 : E(X), p

        • \$= sum_{모든 x} x * P(X=x)\$

        • \$= sum_{모든 x} x * f(x)=0*(p^{0}*(1-p)^{1})+1*(p^{1}*(1-p)^{0})=p\$

    • 베르누이 시행의 분산

      • 표현 : Var(X), p * (1 - p)

        • \$= E(X^{2}) - (EX)^{2}\$

        • \$= sum_{모든 x} {x^{2} * f(x)} - p^{2}\$

        • \$= sum_{모든 x} {(0^{2} * (p^{0} * (1-p)^{1}) + 1^{2} * (p^{1} * (1-p)^{0})} = p\$

        • \$= p - p^{2}\$

        • \$= p(1-p)\$

1.2.2. 이항분포

  • 이항분포(binomial distribution) : 성공 횟수가 따르는 분포함수

    • 표현 : B(n, p)

    • 각 실험이 서로 독립적으로 시행(iid)일 때 시행횟수인 _n_과 성공 확률인 _p_로, 이항분포는 _B(n, p)_로 나타냄

  • 이항계수(binomial coefficient) : 확률변수가 어떤 값을 가지는 경우의 수

    • 표현 : \$nCx or ((n), (x))\$

    • 이항계수 뒷부분인 확률을 나타내는 수식

      • \$p^{x} (1 - p)^{n - x}\$

1.2.3. 정규분포

작성중..