Some Probability Stuffs

2019년 09월 24일 | by Admin

Probability and Linear Algebra

writer : jeonjoohyoung@gmail.com

1. Conditional probability (조건부 확률)

정의 사건 A와 B가 표본공간 S상에 정의되어 있으며 $P(B) > 0$ 이라고 하자. 이때 사건 B가 일어났다는 가정하의 사건 A가 일어날 조건부 확률은 다음과 같이 정의된다. $P(A|B)$ = $\frac{P(A\cap B)}{P(B)}$

수리적 해석

B가 일어났다는 것을 알게 되면 $B^{c}$ 에 포함되는 실험결과들은 관찰이 불가능하므로 전체 표본공간은 B로 국한된다. 이때, 조건부 확률 $P(A | B)$ 가 가지는 의미는, A가운데 B에 포함되는 부분의 확률인 $P(A \cap B )$ 라는 표본공간의 확률의 $P(B)$ 에 대한 상대적 크기를 의미한다.
성질

서로 배반인 두 사건 $A_{1}$ 과 $A_{2}$ 에 대하여, 다음과 같은 성질이 성립된다.

$P(A_{1} \cup A_{2} | B)$ = $\large \frac{P[(A_{1} \cup A_{2}) \cap B]}{P(B)}$

= $\large \frac{P[(A_{1} \cap B ) \cup (A_{2} \cap B)]}{P(B)}$

= $\large \frac{P[(A_{1} \cap B ) + (A_{2} \cap B)]}{P(B)}$ ( $\because (A_{1} \cap B) \cap (A_{2} \cap B) =\varnothing)$

= $P(A_{1} | B ) + P(A_{2} | B)$

2. Joint probability distribution (결합확률분포), Conditional probability distribution (조건부확률분포), Marginal probability distribution (주변확률분포)

개요

결합확률은 사건 A, B가 동시에 발생할 확률이다. 사건 A, B가 둘다 진실일 때 A와 B의 교집합의 확률을 계산하는 것과 같다. 결합확률과 대비되는 개념으로 결합되지 않는 개별 사건의 확률 P(A) 또는 P(B)를 주변 확률이라고 한다. 두 사건의 발생 개념에서, 새로운 정보가 주어지든 주어지지 않는 특정 사건의 확률이 변함이 없는 경우에는 서로 독립이라고 한다. (확률질량함수 : 확률변수가 이산형일때, 확률밀도함수 : 확률변수가 연속형일때)

2.1 Joint probability distribution (결합확률분포)

두 확률변수에서의 정의

(1) 이산형 확률변수

두 확률변수 X, Y가 주어진 경우 결합확률분포의 정의는 다음과 같다. 확률변수 X의 가능한 값이 $x_{1}, x_{2}, ... ,x_{n}$ 이고, 확률변수 Y의 가능한 값이 $y_{1}, y_{2}, ... y_{m}$ 이라면, 결합확률분포 $P ( X = x_{i}, Y = y_{i} ) = P_{ij}$ 는 결합확률질량함수(Joint probability mass function) 모든 i, j에 대하여 $P_{ij} \ge$ 0 이며

$\large \sum_{i=1}^n \sum_{j=1}^m f(x_{i}, y_{j})$ = $\sum_{i=1}^n \sum_{j=1}^m P_{ij} = 1$ 이다.

(2) 연속형 확률변수

두 확률변수 X, Y의 결합확률밀도함수를 $f(x, y)$ 라고 정의할때, 모든 $(x, y)$ 에 대해서 $f(x, y) \ge 0$ 이며

$\large \int \int_{-\infin}^{\infin} f(x,y)\,dx\,dy = 1$ 이다.
확률벡터에서의 정의

확률벡터 $X_{1}, X_{2}, X_{3}, ... X_{k}$ 의 결합 확률분포함수는 다음과 같다.

$F(x_{1}, x_{2}, ... , x_{k}) = P(X_{1} \ge x_{1}, X_{2} \ge x_{2}, ... , X_{k} \ge x_{k})$ 로 정의된다.

따라서, 결합 확률밀도함수를 사용하면 결합 확률분포는 다음과 같다.

$\large F(x_{1},x_{2},..,x_{k})= \begin{cases} \sum ... \sum_{\forall \, t_{i} \ge x_{i}} f(t_{1}, t_{2}, ..., t_{k}) & \mbox{If discrete} \\ \int_{-\infin}^{x_{k}} ... \int_{-\infin}^{x_{1}} f(t_{1}, t_{2}, .... t_{k}) \, dt_{1} \cdots dt_{k} & \mbox{If continuous} \end{cases}$
성질

확률벡터가 연속형인 경우, 결합 확률밀도함수와 결합 확률분포 함수 사이에는 다음과 같은 관계가 성립된다.

$\large f(x_{1}, x_{2}, ..., x_{k}) = \frac{\partial^k}{\partial x_{1} \cdots \partial x_{k}} \, F(x_{1}, x_{2}, \cdots, x_{k})$

2.2 Conditional probability distribution (조건부확률분포)

정의

이산 또는 연속형 확률분포 $X$ 와 $Y$ 에 대하여,

(1) $X = x$ 로 주어진 확률변수 $Y$ 의 조건부 분포는 다음과 같다.

$\large f(y|x) = \frac {f(x, y)}{f_{X}(x)}$ , $f_{X}(x)$ 는 $X$ 의 주변확률분포

(2) $Y = y$ 로 주어진 확률변수 $X$ 의 조건부 분포는 다음과 같다.

$\large f(x|y) = \frac {f(x, y)}{f_{Y}(y)}$ , $f_{Y}(y)$ 는 $Y$ 의 주변확률분포

2.3 Marginal probability distribution (주변확률분포)

두 확률변수에서의 정의

두 확률변수의 결합분포에 관심이 있더라도 경우에 따라서 각 변수만의 분포를 구할 필요가 있다. 두 확률변수 X, Y의 결합 확률밀도함수가 $f_{X, Y} (x, y)$ 로 주어졌을 때, 두 변수 X, Y각각의 확률밀도함수 $f_{X}(x)$ 와 $f_{Y}(y)$ 는 다음 방법으로 구해진다.

이산형인 경우 : $\large f_{X}(x) = \sum_{\forall y} f_{X, Y} (x, y)$ , $\large f_{Y}(y) = \sum_{\forall x} f_{X, Y} (x, y)$

연속형인 경우 : $\large f_{X}(x) = \int_{-\infin}^{\infin} f_{X, Y} (x, y)\, dy$ , $\large f_{Y}(y) = \int_{-\infin}^{\infin} f_{X, Y} (x, y)\, dx$
확률벡터에서의 정의

확률변수 $X_{1}, X_{2}, \cdots , X_{k}$ 의 결합 확률밀도함수가 $f(x_{1}, x_{2}, \cdots, x_{k})$ 일 때, $X_{i}(1 \le i \le k)$ 의 주변 확률밀도함수는 다음과 같다.

$\large f_{X_{i}}(x_{i})= \begin{cases} \sum ... \sum_{\mbox{all values except} \, x_{i}} f(x_{1}, x_{2}, ..., x_{k}) & \mbox{Discrete} \\ \int ... \int f(x_{1}, x_{2}, .... x_{k}) \, dx_{1} \cdots dx_{i-1} \, dx_{i+1} \cdots \, dx_{k} & \mbox{Continuous} \end{cases}$

3. Independent random variable (독립확률변수)

정의

두 확률변수 $X$ 와 $Y$ 는 임의의 실구간 A와 B에 대하여, $P(X\in A, Y\in B) = P(X \in A) \, \cdot \, P(Y \in B)$ 의 경우가 성립할 때 서로 독립이라고 한다. 확률밀도함수의 경우 두 확률변수 $X$ 와 $Y$ 가 서로 독립일 필요충분조건은 $f_{X, Y}(x,y) = f_{X} (x) \, \cdot \, f_{Y}(y)$ 이다. 두 확률변수가 서로 독립일 필요충분조건은 결합 확률밀도함수가 주변 확률밀도함수들의 곱의 골로 표현되는 것이다.
예제

두 변수 X, Y의 결합 확률밀도함수가 다음과 같다.

$\large f_{X, Y} (x, y) = \frac{\exp(-4) \, \cdot \, 2^{x+y}}{x!\,y !}$ $x, y = 0, 1, 2, \cdots$

X, Y의 주변 확률밀도함수는 각각

$\large f_{X}(x) = \sum_{y} f_{X, Y} (x, y) = \frac{\exp(-2) \, \cdot \, 2^{x}}{x !}$ $x = 0, 1, 2, \cdots$

$\large f_{Y}(y) = \sum_{x} f_{X, Y} (x, y) = \frac{\exp(-2) \, \cdot \, 2^{y}}{y !}$ $y = 0, 1, 2, \cdots$

으로 계산되므로 $\large f_{X, Y} (x, y) = f_{X}(x) \cdot f_{Y}(y)$ 가 성립한다. 따라서 X, Y는 서로 독립이다.

4. Correlation (상관계수), Autocorrelation (자기상관계수)

4.1 Correlation (상관계수)

정의

두 확률변수 $X$ , $Y$ 에 대하여, 다음과 같이 정의된 측도를 두 확률변수의 상관계수라 한다.

$\large \rho (X, Y) = \large \frac {Cov(X, Y)}{\sigma_{X} \cdot \sigma_{Y}}$ = $\large \frac {E[(X - \mu_{X})(Y - \mu{Y})]}{ \sqrt{Var(X)} \sqrt{Var(Y)}}$ = $\large \frac{E(XY) - \mu_{X} \mu_{Y}}{\sqrt{E(X^2)- \mu^2_{X}} \sqrt{E(Y^2)- \mu^2_{Y}}}$
성질

$0 < \rho (X, Y) \le 1$ : 양의 상관관계. 두 확률변수가 같은 증감추세를 가지려는 경향이 있다. 한쪽이 커지면(작아지면) 동반해서 다른쪽도 커지려는(작아지려는) 경향이 있다.

$-1 \le \rho (X, Y) < 0$ : 음의 상관관계. 두 확률변수가 서로 다른 증감추세를 가지려는 경향이다. 한쪽이 커지면(작아지면) 동반해서 다른쪽이 작아지려는(커지려는) 경향이 있다.

$\rho (X, Y) = 0$ : 무상관 관계

4.2 Autocorrelation (자기상관계수)

정의

확률변수 $Y$ 에 대한 서로 다른 시점에서의 관측값 $Y_{t}$ 와 $Y_{t-k}$ 를 고려하자. 여기서 $k \ge 0$ 인 값이다.

두 가지 성질(등평균, 등분산성)을 가정한다.

(1) $E(Y_{1}) = E(Y_{2}) = \cdots = E(Y_{n}) = \mu_{Y}$

관측치들이 관측된 시간에 걸쳐 어떤 추세의 패턴을 가지지 않는다는 것.

(2) $Var(Y_{1}) = Var(Y_{2}) = \cdots = Var(Y_{n}) = \sigma^2_{Y}$

관측치들이 관측된 시간에 걸쳐 폭이 일정하다.

위의 가정들 하에서, 두 확률변수 $Y_{t}$ 와 $Y_{t-k}$ 사이의 자기상관계수는

$\large \rho (k) = \large \rho (Y_{t}, Y_{t-k}) = \large \frac {Cov(Y_{t}, Y_{t-k})}{\sqrt{Var(Y_{t})} \sqrt{Var(Y_{t-k})}}$ = $\large \frac{E[Y_{t} Y_{t-k}] - E(Y_{t})E(Y_{t-k})}{\sqrt{\sigma^2_{Y}} \sqrt{\sigma^2_{Y}}}$ = $\large \frac {E[Y_{t}Y_{t-k}] - \mu^2_{Y}}{\sigma^2_{Y}}$

성질

$\rho(k)$ 를 "k차 자기상관계수"라 한다. 만약 $k=1$ 일 때, 1차 자기상관계수는

$\rho(1) = \rho(Y_{t}, Y_{t-1}) = \large \frac {E[Y_{t}Y_{t-1}] - \mu^2_{Y}}{\sigma^2_{Y}}$ 로 얻을 수 있다.
- $-1 \le \rho(k) \le 1$ 을 만족한다.
- $\rho(-k) = \rho(k)$ 가 성립한다.
- $\rho(0) = 1$ 이 성립한다.

해석

자상관계수 $\rho(1) = 0.9$ 는 여러번 관측했을 때, 현시점의 자료 $Y_{t}$ 와 다음 시점의 관측자료나 이전 시점의 관측자와 매우 유사할 가능성이 높다는 것을 말한다. ㄷ또한, $\rho(2) = -0.9$ 는 여러번 관측했을 때 두 시점 전, 후의 관측값이 현 시점의 관측값에 비해 상이할 가능성이 높다는 것을 말한다. 만약, $\rho(3) = 0.0001$ 이라면 여러번 관측했을 때 현 시점의 관측과 3기간 전, 후의 관측이 거의 무관하다는 것을 말한다.

5. Eigenvalue (고유값), Eigenvector (고유벡터)

들어가기

벡터 $x$ 에 어떠한 선형변환 $A$ 를 했을 때, 그 크기만 변하고 원래 벡터와 평행한 벡터 $x$ 는 무엇인가?

위의 그림처럼, 행렬 $A$ 는 벡터를 다른 벡터로 변환시켜준다. 변환 후의 벡터 $A\vec{x}$ 는 변환 전의 벡터 $\vec{x}$ 에 비해 방향, 크기가 변해 있다. 그런데 특정한 벡터와 행렬은 선형 변환을 취했을 때, 크기만 바뀌고 방향은 바뀌지 않을 수도 있다.

위의 그림에서 처럼, 행렬 $\begin{bmatrix} 2&1 \\ 1&2 \end{bmatrix}$ 에 벡터 $\begin{bmatrix} 1 \\ 1 \end{bmatrix}$ 를 곱하면 방향은 같지만 크기만 바뀐 벡터가 출력된다. 이는 즉, 입력벡터 $\vec{x}$ 를 $A$ 로 선형변환 시킨 결과( $A\vec{x}$ )가 상수배라는 것이다.

고유값, 고유벡터의 정의

임의의 $n \times n$ 크기 행렬 $A$ 에 대하여, 0이 아닌 벡터 $\vec{x}$ 가 존재한다면 상수 $\lambda$ 는 행렬 $A$ 의 고유값이며, 이때 벡터 $\vec{x}$ 는 고유값 $\lambda$ 에 대응되는 고유벡터이다. (또 다른 정의) 선형변환 $A$ 에 의한 결과가 자기 자신의 상수배가 되는 0이 아닌 벡터를 고유벡터(eigenvector, 여기서는 $\vec{x}$ ), 상수배 해주는 값을 고유값(eigenvalue, 여기서는 $\lambda$ )이라 한다.

$A\vec{x} = \lambda \vec{x}$
고유값분해 (eigendecomposition)

고유값, 고유벡터는 정방행렬의 대각화와 밀접한 관련이 있다. (eigendecomposition은 정방행렬만 가능) 위의 $A\vec{x} = \lambda \vec{x}$ 를 다음과 같이 표현할 수 있다.

$\large A[ x_{1} \, x_{2} \, \cdots x_{n}] = [\lambda_{1} x_{1} \, \lambda_{2} x_{2} \, \cdots \, \lambda_{n} x_{n}]$

= $\large [x_{1} \, x_{2}, \cdots \, x_{n}] \begin{bmatrix} \lambda_{1}&0 & \cdots &0 \\ 0 &\lambda_{2} & \cdots &0 \\ \vdots & & \ddots & \vdots \\ 0 & & \cdots &\lambda_{n} \end{bmatrix}$

행렬 $A$ 의 고유벡터들을 열벡터로 하는 행렬을 $P$ , 고유값들을 대각원소(diagonal)로 하는 대각 행렬을 $\Lambda$ 라 하면 다음 식이 성립된다. $AP = P\Lambda$

즉, $A = P\Lambda P^{-1}$ 행렬 $A$ 는 자신의 고유벡터들을 열벡터로 하는 행렬과 고유값을 대각원소로 하는 행렬의 곱으로 대각화 분해가 가능하다.

6. Positive definite matrix, Positive semidefinite matrix

정의

위의 5장 고유값분해에서 살펴본 $\Lambda$ 행렬과 유사하게, 대칭행렬(symmetric) 이면서 대각원소인 모든 고유값이 양수인 경우를 Positive definite matrix라고 한다. 만약, 해당 고유값이 0을 포함한 양수를 가진다면 Positive semidefinite matrix라고 한다.

다음과 같은 대칭행렬 $M$ 이 주어졌다고 하자. 그러면, $M = \begin{bmatrix} 2 & -1 & 0 \\ -1 & 2 & -1 \\ 0 & -1 & 2 \end{bmatrix}$ 는 Positive definite matrix이다. 다음과 같이 $\vec{z}^{T}M\vec{z}$ 가 무조건 양수를 가지기 때문이다.

$\vec{z} = \begin{bmatrix} a \\ b \\ c \end{bmatrix}$ 와 같다고 가정하자. 그러면 $\vec{z}^{T}M\vec{z}$ 는 다음과 같이 계산된다.

$\vec{z}^{T}M \vec{z}$ = $a^{2} + (a - b)^2 + (b - c)^2 + c^{2}$

해당 식이 의미하는 것은 $\vec{z}$ 원소 a, b, c가 어떠한 값을 가지든 무조건 양수가 된다는 것을 말한다.
응용 (함수의 성질)

Positive definite matrix와 Postive semidefinite matrix는 다변수 함수의 극값을 판별하는데 사용될 수 있다.

예를 들어, 두 개의 변수로 구성된 함수 $f(x, y) = ax^2 + 2by + cy^2$ 를 다음과 같이 $x^{T}Ax$ 로 나타낼 수 있다.

$ax^2 + 2by + cy^2 = \begin{bmatrix} x & y \end{bmatrix} \, \begin{bmatrix} a & b \\ b & c \end{bmatrix} \, \begin{bmatrix} x \\ y \end{bmatrix}$

여기에서 우리는 행렬 $A$ 의 원소 특징을 살펴보면, 이변수 함수의 모양을 알 수 있다. 위의 $A$ 행렬이 Positive definite matrix인 경우 함수 $f(x, y)$ 는 그릇 형태로 최소값을 가진다. 만약 Positive semidefinite matrix인 경우에는 아래로 굽은 굴곡 형태이며 기울기가 증가하는 양상을 가지고 있을 것이다. 만약, negative definite인 경우에는 돔 형태로 최대값을 가진다. negative semidefinite인 경우에는 위로 굽은 굴곡으로 기울기는 감소추세를 가진다.

함수의 극값, 극소값, 안장값을 가지는지 여부는 함수 최적화에 필요하다. 예를 들어 딥러닝의 Loss 함수를 개발하고자 할 때, 개발한 함수가 극값을 가지는지 여부를 확인하고 사용해야 할 것이다.

Positive definite matrix 여부 확인하는 방법 (5가지 중 하나만 만족하면 된다)

(1) 영이 아닌 모든 실수 벡터 $x$ 에 대하여 $x^TAx > 0$ 을 만족한다.

(2) 행렬 $A$ 의 모든 고유값들이 0보다 크다.

(3) 행렬 $A$ 의 모든 Sub-matrix(상위 왼쪽)의 행렬식들이 0보다 크다.

(4) 행렬 $A$ 의 모든 피봇들이 0보다 크다

(5) $A = R^TR$ 인 독립 열들을 지닌 행렬 $R$ 이 존재한다.

References

송성주, 수리통계학 4판 (2015), 자유아카데미
공돌이의 수학정리노트 (https://angeloyeo.github.io/2019/07/17/eigen_vector.html)