기초 통계분석 - 03 - 확률과 확률분포
'R 통계분석(제대로 알고 쓰는) - 이윤환저'의 책을 통해 기초 통계분석 학습
1. 확률과 확률분포
1.1. 확률
1.1.1. 확률
-
확률
-
확률(確率, probability) : 가능성의 정도, (어떤 결정 등을) 굳힐 비율, (어떤 일이) 있을(사실일) 것 같은 개연성
-
-
확률 용어
-
확률실험(혹은 시행)
-
확률실험(experiment) 또는 확률시행(trial)은 아래 3가지를 만족할 때
-
표현 : Ε
-
(결과 구하기 위한) 어떤 실험을 통해 나타나는 결과를 알지 못함
-
결과는 알지 못하지만 결과로 나타날 수 있는 가능한 경우를 알고 있음
-
동일한 실험(각종 환경이 같은)을 몇 번이고 반복할 수 있음
-
-
-
표본공간
-
표본공간(sample space) : 출현 가능한 모든 결과들의 모임
-
표현 : Ω
-
-
-
사건
-
사건(event) : 표본공간의 각 원소(출현 가능한 개별 결과)들의 부분집합
-
표본점(sample point) : 시행의 한 결과
-
근원사건(elementary event) : 어떤 사건의 하나의 표본점으로 이루어지는 (표본공간의 개별 결과가 하나인) 사건
-
표현 : 영어 대문자(A, B, C, … 등)
-
-
합사건 : 어떤 사건의 발생이 사건 A에서 일어나거나 혹은 사건 B에서 일어나는 것
-
수식 : \$A uu B = { omega in Omega | omega in A or omega in B}\$
-
-
곱사건 : 어떤 사건의 발생이 사건 A에서 일어나고 사건 B에서도 일어나는 사건, 즉 사건 A와 B가 동시에 일어나는 사건
-
수식 : \$A nn B = { omega in Omega | omega in A and omega in B}\$
-
-
여사건 : 어떤 사건이 발생하지 않을 사건
-
수식 : \$A^{c} = { omega in Omega | omega !in A}\$
-
-
배반사건 : 두 사건이 겹치는 부분이 없는 사건
-
수식 : \$A nn B = O/\$
-
-
독립사건 : 두 사건이 서로 발생에 영향을 끼치지 않을 때 두 사건은 서로 독립
-
수식 : \$A _|_ B\$
-
-
합사건, 곱사건, 여사건은 집합 연산의 교환법칙, 결합법칙, 분배법칙, 드 모르간의 법칙을 적용할 수 있음
-
-
-
확률의 정의
-
수학적 확률
-
수식 : O ; Outcome의 약자
-
어떤 시행의 결과로 나타날 수 있는 가능한 결과의 수
-
각 결과들은 나타날 가능성이 동일하다는 가정(각 근원사건이 발생한 가능성은 동일함)
-
동일한 각 결과들의 확률은 \${1} / {O}\$
-
-
통계적 확률 : 수학적 확률을 통한 정의보다 수없이 많은 관찰을 통해 정의
-
표현 : 실험횟수 N , 사건발생 n
-
동일한 조건에서 같은 실험을 N번 반복
-
사건 A가 모두 몇 번 발생했는지를 조사 : n
-
사건 A가 발생할 확률 : \$P(A) = {n} / {N}\$
-
-
확률 공리
-
확률 공리(axioms of probability) : 경험상 인식을 확문적으로 밝힘에 있어 이론적으로 뒷받침하는 확률론의 기본 바탕
-
P(A)는 0과 1 사이의 값을 갖고 (0 ≤ P(A) ≤ 1)
-
반드시 일어나는 사건(혹은 표본공간 전체)의 값은 1이며 (P(Ω)=1)
-
서로 배반인 사건 \$A_{1}, A_{2}, A_{3}, ..., A_{n}, ...\$ 의 합칩합에 대해 다음을 만족하면,
-
\$P(uuu_{i=1}^{oo}A_{i}) = sum_{i=1}^{oo}P(A_{i})\$
-
함수값 P(A)를 사건 A의 확률이라 함
-
-
-
-
확률 법칙
-
덧셈법칙
-
합사건일 때 (A U B)
-
\$P(A uu B) = P(A) + P(B) - P(A nn B)\$
-
-
배반사건일 때 (A n B = ø)
-
\$P(A uu B) = P(A) + P(B)\$
-
-
-
곱셈법칙
-
조건부 확률 : 두 사건 A와 B에 대해 사건 B가 발생했다는 조건 하에 사건 A가 발생할 확률
-
표현 : P(A|B)
-
\$P(A|B) = {P(A nn B)} / {P(B)}, P(B) > 0\$
-
사건 A와 B가 동시에 일어날 확률일 P(A n B)를 사건 B가 발생할 확률인 P(B)로 나눈 것
-
-
곱셈법칙
-
요약 : \$P(A nn B) = {(P(A nn B) = P(B) * P(A|B), P(A) > 0), (P(A nn B) = P(A) * P(B|A), P(B) > 0):}\$
-
확률 P(A)는 0 부터 1까지 실수를 가지므로 아래의 식에서 분모 P(B)를 좌변으로 넘기며, 두 사건 A와 B의 곱집합의 확률 계산
-
\$P(A|B) = {P(A nn B)} / {P(B)}, P(B) > 0\$
-
\$P(B) * P(A|B) = P(A nn B), P(B) > 0\$
-
\$P(A nn B) = P(B) * P(A|B)\$
-
-
두 사건 A와 B에서 사건 A가 조건으로 주어지는 조건부 확률 P(B|A)를 전개하며, 곱집합의 확률 계산
-
\$P(B|A) = {P(A nn B)} / {P(A)}, P(A) > 0\$
-
\$P(A nn B) = P(A) * P(B|A)\$
-
-
-
독립사건일 경우의 곱셈법칙
-
요약 : \${(P(B | A) = {P(A nn B)} / {P(A)} = {P(A) * P(B)} / {P(A)} = P(B)), (P(A | B) = {P(A nn B)} / {P(B)} = {P(A) * P(B)} / {P(B)} = P(B)):}, if A _|_ B\$
-
-
-
여사건의 확률
-
사건 A의 여사건 \$P(A^{c})\$은 아래와 같음
-
\$P(A) + P(A^{c}) = 1\$
-
\$P(A^{c}) = 1 - P(A)\$
-
-
-
1.1.2. 확률변수
-
확률변수(random variable) : 표본공간(Ω)에서 각 원소를 실숫값에 대응 시키는 함수
-
확률변수의 표현
-
확률변수 : 알파벳 대문자 X, Y, Z, …
-
확률변수 실숫값 : 알파벳 소문자 x, y, z, …
-
확률변수 X가 값 x를 가질 때 X = x 로 표기
-
-
확률변수의 종류
-
이산형 확률변수(discrete random variable)
-
연속형 확률변수(continuos random variable)
-
-
-
확률변수의 평균과 분산
-
확률변수의 평균, 기댓값
-
평균
-
표현 : \$bar X\$
-
상수값 0, 1, 2 일 때 평균의 수식
-
수식 : \$bar X = sum_{i=1}^{n}{1}/{n} * x_{i} = {1} / {3}(0 + 1 + 2) = 1\$
-
-
-
기대값 : 확률변수의 평균
-
표현 : E(X); E(확률변수)
-
확률변수 X가 동전을 두번 던져 앞면이 나오는 횟수의 수식
-
수식 : \$E(X) = sum_{i=1}^{3}x_{i} * P(X = x_{i}) = 0 * {1} / {4} + 1 * {2} / {4} + 2 * {1} / {4} = 1\$
-
-
확률변수 X가 연속형일 경우 연속형 잘에 맞도록 단순 합이 아닌 적분 사용
-
수식 : \$E(X) = int _{모든 x} x * P(X = x)dx\$
-
-
-
-
확률변수의 분산
-
분산 : 편차 제곱의 평균
-
분산을 아래와 같이 편차 제곱의 기대값으로 구함
-
수식 : \$Var(x) = E[(X - E(X))^{2} ]\$
-
-
편차를 나타냄에 있어 확률변수의 평균, 즉 기대값을 사용하여 \$bar X\$ 대신 E(X)를 쓰고, 확률변수의 분산은 Var(확률변수) 로 표기
-
수식 : \$Var(x) = E[(X - E(X))^{2} ] = sum_{모든 x}(x - E(X))^{2} * P(X = x)\$
-
수식 : \$Var(X) = E(X^{2}) - E(X)^{2} = [sum_{모든 x} x^{2} * P(X = x)] - [E(X)]^{2}\$
-
-
동전을 두 번 던져 앞면이 나오는 횟수의 분산 수식
-
수식 : \$E(X^{2}) = sum_{i=1}^{3} x_{i}^{2} * P(X = x_{i}) = 0^{2} * {1} / {4} + 1^{2} * {2} / {4} + 2^{2} * {1} / {4} = {1} / {2} + {4} / {4} = {6} / {4}\$
-
-
위 값에서 기대값의 제곱을 뺌(기대값은 1)
-
\$Var(X) = E(X^{2}) - E(X)^{2} = {6} / {4} - 1 = {2} / {4} = {1} / {2}\$
-
-
-
-
1.2. 분포함수
-
분포함수(누적분포함수; cumulativ distribution function)
-
표현 : \$F(x) = P(X <= x)\$
-
확률변수 X가 가질 수 있는 임의의 실측값 x에 대해 다음과 같이 정의된 함수 F
-
분포함수의 특성이 모수이며, 모수에 따라 분포함수의 모양이 결정됨
-
-
확률분포
-
확률변수 X가 실측값 x를 갖는 확률 (P(X = x)) 에 대한 함수 f(x) 로 나타냄
-
이산형 : 확률질량함수(pmf; probability mass function)
-
연속형 : 확률밀도함수(pdf; probability density function)
-
1.2.1. 베르누이 시행
-
베르누이 시행(Bernoulli’s trial) : '성공’과 '실패' 두가지 결과가 나타는 확률실험
-
표현 : Bernoulli(p)
-
확률변수 X가 베르누이 싱행에 따라 성공일 때 1, 실패일 때 0을 가질 경우 확률질량함수는 아래와 같음
-
\$P(X=x) = f(x) = p^{x} * (1-p)^{1-x} , x={(성공 1), (실패 0) :}\$
-
-
주사위를 던져 3의 배수의 눈이 나오면 성공(1), 아닐경우 실패(0)일 때
-
성공 \$(X=1) : P(X=1)=p^{x=1} * (1-p)^{1-(x=1)=p}\$
-
실패 \$(X=0) : P(X=0)=p^{x=0} * (1-p)^{1-(x=0)=1-p}\$
-
확률변수 X가 1을 가질 확률은 p. 3의 배수일 경우 성공이므로 성공확률은 \$p={1}/{3}\$, 즉 확률변수 X가 1을 가질 확률은 \${1}/{3}\$
-
-
베르누이 시행의 기대값(확률변수의 평균 = (E(확률변수)))
-
표현 : E(X), p
-
\$= sum_{모든 x} x * P(X=x)\$
-
\$= sum_{모든 x} x * f(x)=0*(p^{0}*(1-p)^{1})+1*(p^{1}*(1-p)^{0})=p\$
-
-
-
베르누이 시행의 분산
-
표현 : Var(X), p * (1 - p)
-
\$= E(X^{2}) - (EX)^{2}\$
-
\$= sum_{모든 x} {x^{2} * f(x)} - p^{2}\$
-
\$= sum_{모든 x} {(0^{2} * (p^{0} * (1-p)^{1}) + 1^{2} * (p^{1} * (1-p)^{0})} = p\$
-
\$= p - p^{2}\$
-
\$= p(1-p)\$
-
-
-
1.2.2. 이항분포
-
이항분포(binomial distribution) : 성공 횟수가 따르는 분포함수
-
표현 : B(n, p)
-
각 실험이 서로 독립적으로 시행(iid)일 때 시행횟수인 _n_과 성공 확률인 _p_로, 이항분포는 _B(n, p)_로 나타냄
-
-
이항계수(binomial coefficient) : 확률변수가 어떤 값을 가지는 경우의 수
-
표현 : \$nCx or ((n), (x))\$
-
이항계수 뒷부분인 확률을 나타내는 수식
-
\$p^{x} (1 - p)^{n - x}\$
-
-
1.2.3. 정규분포
작성중..
Twitter
Google+
Facebook
Reddit
LinkedIn
StumbleUpon
Email