통계학 | 수학/Math for ML

[베이즈 통계학] 베이즈 정리

채채씨 2021. 8. 16. 14:10
728x90
반응형


베이즈정리는 베이지안주의(Bayesianism)에 기반을 두고 있으며 이는 기존의 빈도주의(frequentism) 통계학과 관점이 다르다. '주사위를 던졌을 때 짝수가 나올 확률'과 같이 확률 공간과 분포를 정의하고 확률을 계산하여 strict한 결과를 얻는 빈도주의와 달리, 베이지안주의는 불확실성을 가진 주장을 바탕으로 Evidence를 확보하여 점차 그 주장을 갱신하며 확률을 얻는다.

 

 

베이즈 정리를 한 마디로 정리하면 Evidence를 근거로 사전확률을 update하여 사후확률을 계산하는 것이다.

 

 

P(H) H는 가설 혹은 어떤 사건이 발생했다는 주장이므로 P(H)는 가설에 대한 확률(신뢰도)이다.
P(E) E는 Evidence로 데이터로부터 얻어진 증거이며 P(E)는 그 증거에 대한 확률이다.
P(E|H) 가설로 세운 일이 발생했을 때 그 사건이 Evidence일 확률이다.
P(H|E) Evidence안에서 가설로 세웠던 H가 일어날 확률을 의미하며, Evidence에 기초하여 기존의 가설을 갱신한 확률을 나타낸다.



여기서 분모 P(E)는 기존의 가설에서 Evidence가 관찰된 확률과 가설이 틀린 곳에서 Evidence가 관찰된 확률로 구성되므로 아래 공식으로 풀 수 있다.

 

 




이제 간단한 베이즈 정리 문제를 보자.

COVID-99 발병률이 10%로 알려져있다. COVID-99에 실제로 걸렸을 확률은 99%이고, 실제로 걸리지 않았을 때 오진될 확률이 1%라고 하자. 이때 어떤 사람이 질병에 걸렸다고 검진결과가 나왔을 때 실제로 COVID-99에 걸렸을 확률은?

 


Hypothesis와 Evidence를 잘 정의하는 것이 중요하다. 여기서 H는 COVID-99에 실제로 발병한 것이므로 P(H)는 발병률이되고, E는 COVID-99에 걸렸다고 검진결과가 난 것이므로 P(E)는 양성으로 검진 결과가 났을 확률이다.


따라서,
P(H)는 실제로 COVID-99에 걸릴 확률 0.1이고

P(E)는 P(H)P(E|H) + P(Hc)p(E|Hc) = 0.1*0.99 + 0.9*0.01 = 0.108이므로

COVID-99에 걸렸다고 검진결과가 나왔을때 실제로 COIVD-99에 걸렸을 확률 P(H|E)는 (0.1*0.99) / 0.108 = 0.916이다.

728x90
반응형