본문 바로가기
IT ▶/Database

[빅데이터] 통계 확률 기초 개념 (조건부 확률, 정규분포)

by Jordan_ 2019. 10. 26.
728x90
반응형

 

 

- 확률(Probabilities) : 특정 사건이 일어날 가능성을 0 ~ 1 사이의 값으로 표현

 

- 통계(Statistics) : 데이터 수집, 처리, 분석, 활용하는 지식으로 데이터로부터 정보 도출

 

- 사건 : 표본공산에서 관심 대상인 부분집합

 

- 표본공간 : 확률 실험의 가능한 결과의 집합

 

 

1> 조건부 확률

 

 

- 사건이 발생한다는 조건 하에서 다른 사건이 발생할 확률을 의미합니다.

 

P(K | M) = P(K∩M) / P(M)

 

P(K | M) = P(K) 라는 의미는,

 

M 사건이 K 사건 발생에 전혀 영향이 없다는 의미로, 두 사건은 통계적으로 독립된다고 합니다.

 

 

 

2> 베이즈 확률 (Bayes' Theorem)

 

 

- 사후확률을 사전확률과 가능도를 이용하여 계산 해주는 확률

 

베이즈 정리

 

3> 확률분포

 

 

- 이산형 분포 (discrete) 

 

기대값은 각 값 * 확률을 곱한 값의 합을 의미

 

포아송 분포 : 단위 시간에 어떤 사건이 몇 번 발생하는지에 대한 확률 분포

 

- 연속형 분포 (continuous)

 

 

4> 정규분포 : 평균을 중심으로 대칭을 이루는 종모양의 연속확률분포를 의미합니다.

 

 

- 분산이 적으면 좁은 종모양

 

- 분산이 크면 넓게 분포된 종모양

 

- 표준정규분포 : 평균 0, 분산 1 정규분포

 

 

5> 중심극한정리 : 표본 수가 증가하면 정규분포를 따라가므로, 모집단의 분포를 몰라도 중심극한정리를 통해 표본평균의 검정과 추이가 가능합니다.

 

 

- 신뢰구간과 오차범위

 

95% 신뢰구간 95% 의미는 100번 반복해서 얻은 샘플링에서 5개는 모평균이 포함되지 않을 확률을 뜻합니다.

 

 

6> 통계적 검정

 

가설의 진위 여부를 판단, 증명하는 통계적인 추론 방식입니다.

 

- 검정 순서

 

가설을 설정 -> 유의수준 설정 -> 검정통계량 산출 -> 가설 기각 or 채택

 

귀무가설 : 일반적으로 연구에서 검증하고 통계학적 증거를 통해 증명하려는 가설

 

대립가설 : 일반적으로 귀무가설과 반대되는 주장하고자 하는 가설 

 

-> 검정통계량이 기각역 안에 있으면 귀무가설을 기각 (대립가설 인정)

 

 

 

728x90
반응형