통계학 | 수학/Math for ML
[베이즈 통계학] 베이즈 정리
채채씨
2021. 8. 16. 14:10
728x90
반응형
베이즈정리는 베이지안주의(Bayesianism)에 기반을 두고 있으며 이는 기존의 빈도주의(frequentism) 통계학과 관점이 다르다. '주사위를 던졌을 때 짝수가 나올 확률'과 같이 확률 공간과 분포를 정의하고 확률을 계산하여 strict한 결과를 얻는 빈도주의와 달리, 베이지안주의는 불확실성을 가진 주장을 바탕으로 Evidence를 확보하여 점차 그 주장을 갱신하며 확률을 얻는다.
베이즈 정리를 한 마디로 정리하면 Evidence를 근거로 사전확률을 update하여 사후확률을 계산하는 것이다.
P(H) | H는 가설 혹은 어떤 사건이 발생했다는 주장이므로 P(H)는 가설에 대한 확률(신뢰도)이다. |
P(E) | E는 Evidence로 데이터로부터 얻어진 증거이며 P(E)는 그 증거에 대한 확률이다. |
P(E|H) | 가설로 세운 일이 발생했을 때 그 사건이 Evidence일 확률이다. |
P(H|E) | Evidence안에서 가설로 세웠던 H가 일어날 확률을 의미하며, Evidence에 기초하여 기존의 가설을 갱신한 확률을 나타낸다. |
여기서 분모 P(E)는 기존의 가설에서 Evidence가 관찰된 확률과 가설이 틀린 곳에서 Evidence가 관찰된 확률로 구성되므로 아래 공식으로 풀 수 있다.
이제 간단한 베이즈 정리 문제를 보자.
COVID-99 발병률이 10%로 알려져있다. COVID-99에 실제로 걸렸을 확률은 99%이고, 실제로 걸리지 않았을 때 오진될 확률이 1%라고 하자. 이때 어떤 사람이 질병에 걸렸다고 검진결과가 나왔을 때 실제로 COVID-99에 걸렸을 확률은?
Hypothesis와 Evidence를 잘 정의하는 것이 중요하다. 여기서 H는 COVID-99에 실제로 발병한 것이므로 P(H)는 발병률이되고, E는 COVID-99에 걸렸다고 검진결과가 난 것이므로 P(E)는 양성으로 검진 결과가 났을 확률이다.
따라서,
P(H)는 실제로 COVID-99에 걸릴 확률 0.1이고
P(E)는 P(H)P(E|H) + P(Hc)p(E|Hc) = 0.1*0.99 + 0.9*0.01 = 0.108이므로
COVID-99에 걸렸다고 검진결과가 나왔을때 실제로 COIVD-99에 걸렸을 확률 P(H|E)는 (0.1*0.99) / 0.108 = 0.916이다.
728x90
반응형