본문 바로가기

[자격증]/ADsP 데이터분석 준전문가

[9day] 통계의 이해

by 에디터 윤슬 2024. 10. 18.

통계와 표본 조사

통계

통계학: 불확실한 상황에서 효과적인 의사결정을 할 수 있도록 수치자료를 수집하고, 정리하고, 표현하고, 분석하는 이론과 방법을 연구하는 학문
통계분석: 특정집단을 대상으로 자료를 수집하여 대상집단에 대한 정보를 구하고, 적절한 통계분석 방법을 이용하여 의사결정(통계적 추론)을 하는 과정

표본조사★★

전수조사가 불가능할 때 특정 집단을 대표할 수 있는 표본집단을 선별하여 표본조사를 실시
반드시 특정 집단을 대표할 수 있는 집단이어야 한다. 이를 표본의 대표성이라 한다.
표본의 대표성을 신뢰할 수 있어야 한다.

표본추출 방법★★

단순 랜덤 추출법

N개의 모집단에서 n개의 데이터를 무작위로 추출하는 방법

계통 추출법

모집단의 원소에 차례대로 번호를 부여한 뒤, 일정한 간격을 두고 데이터를 추출하는 방법
N개의 모집단에서 K개씩(K = N/n) n개의 구간으로 나눈다.

집락(군집: Cluster) 추출법

데이터를 여러 집락으로 구분한 뒤, 단순 랜덤 추출법에 의하여 선택된 집락의 데이터를 표본으로 사용하는 방법
각 집락은 동질적이며, 집락 내 데이터는 서로 이질적

층화 추출법

집락 추출법과 유사하나 반대의 성격을 지닌 추출 방법
각 집락은 서로 이질적이며, 군집 내 데이터는 서로 동질적

측정과 척도★★★

측정: 표본조사를 실시하는 경우 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하게 관측해 자료를 얻는 것
척도: 관측 대상의 속성을 측정하여 그 값이 숫자로 나타나도록 일정한 규칙을 정하여 바꾸는 도구

척도의 종류

구분		특징	예시
질적 척도	명목척도	측정 대상이 어느 집단에 속하는지 나타내는 자료	성별, 지역 등
질적 척도	순서척도	측정 대상이 명목척도이면서 서열 관계를 갖는 자료	선호도, 신용도, 학년 등
양적 척도	구간척도	측정 대상이 가지고 있는 속성의 양을 측정할 수 있으며 두 구간 사이에 의미가 있는 자료	온도, 지수 등
양적 척도	비율척도	측정 대상이 구간척도이면서 절대적 기준 0이 존재하여 사칙연산이 가능한 자료	신장, 무게, 점수, 가격 등

기술통계와 추리통계★★

기술통계

기술 통계는 표본 자체의 속성이나 특징을 파악하는 데 중점을 두는 데이터 분석 통계다.
목적: 자료를 요약하고 조직화, 단순화
표본을 설명해주는 데이터의 최솟값, 최댓값, 중위수 등의 통계량이 바로 기술 통계량이며, 모집단의 특성을 유추하는 데 사용할 수 있다.

추리통계

수집한 데이터를 바탕으로 '추론 및 예측'하는 통계 기법
표본에서 얻은 통계치를 바탕으로 오차를 고려하면서 모수를 확률적으로 추정하는 통계 기법
표본에서 얻은 통계치를 가지고 모집단의 특성을 추정하는 데 초점을 둔다.
가설을 검증하거나 확률적인 가능성을 파악한다.

확률

확률 기초★★

확률: 발생 가능한 모든 사건들의 집합 표본공간에서 표본공간의 부분집합인 특정 사건 A가 발생할 수 있는 비율을 나타내는 값.
- 0과 1 사이의 값
- 가능한 모든 사건의 확률의 합은 항상 1이다.

조건부 확률: 특정 사건 A가 발생했다는 것이 사실이라는 전제하에 또 다른 사건 B가 발생할 확률을 나타낸 값
- 0과 1사이의 값

독립사건과 배반사건★★★

독립사건: 서로에게 영향을 주지 않는 두 개의 사건

배반사건: 두 사건 A와 B에 대하여 교집합, 즉 공통된 부분이 없는 경우. 동시에 일어날 수 없는 사건

확률변수와 확률분표 그리고 확률함수★★★

확률변수: 무작위 실험을 했을 때 특정 확률로 발생하는 각각의 결과를 수치적 값으로 표현하는 변수
- 동전 던지기 실험에서 앞면이 나온 결과에 대해 '1', 뒷면이 나온 결과에 대해 '0'이라는 실수값을 부여할 때, 실수값에 부여하는 변수를 확률변수라 한다.
확률분포: 확률변수의 모든 값과 그에 대응하는 확률이 어떻게 분포하고 있는지가 바로 확률분포다. 이때 확률변수에 의해 정의된 실수를 확률에 대응시키는 함수를 확률함수라 한다. 이산확률분포의 확률함수를 '확률질량함수', 연속확률분포의 확률함수를 '확률밀도함수'라 한다.

이산확률분포★★★

베르누이 분포

확률변수 X가 취할 수 있는 값이 두 개인 경우로 일반적으로 한 번의 시행을 할 때 성공과 실패로 나눌 수 있는 성공할 확률이 p인 분포를 의미한다.
예: 하나의 동전을 던져서 앞면이 나올 확률, 제비뽑기에서 당첨될 확률, 시험에 합격하거나 불합격할 확률 등

이항 분포

n번의 베르누이 시행(성공 또는 실패)에서 k번 성공할 확률의 분포를 의미
예: 하나의 동전을 3번 던져서 앞면이 2번 나올 확률, 하나의 주사위를 5번 던져서 1이 한 번 나올 확률, 3번의 제비뽑기에서 1번 당첨될 확률 등을 예로 들 수 있다.

기하 분포

성공확률이 p인 베르누이 시행에서 처음으로 성공이 나올 때까지 K번 실패할 확률의 분포를 의미한다.
동전을 던져서 세 번째에 앞면이 나올 확률, 주사위를 던져서 네 번째에 1이 나올 확률, 제비뽑기를 복원 추출로 시행할 때 다섯 번째에 당첨될 확률 등을 예로 들 수 있다

다항 분포

이항 분포를 확장한 개념으로, n번의 시행에서 각 시행이 3개 이상의 결과를 가질 수 있는 확률의 분포를 의미한다
주사위를 n번 던졌을때 1의 눈이 p1의 확률로 X번, 2의 눈이 p2의 확률로 Y번, 3 이상의 눈이 P3의 확률로 Z번 나올 확률 등을 예로 들 수 있다.

포아송 분포

단위 시간 또는 단위 공간 내에서 발생할 수 있는 사건의 발생 횟수에 대한 확률분포를 의미한다.
8시간 동안 3번의 장난전화가 왔을 때 1시간 동안 장난전화가 2번 올 확률, 5페이지 안에 3개의 오타가 있다면 1페이지 안에 2개의 오타가 있을 확률 등을 예로 들 수 있다.

이산확률변수

확률변수가 취할 수 있는 실수 값의 수를 셀 수 있는 변수를 이산확률변수라 한다.
이산확률변수는 셀 수 있는 실수값을 취한다.
서로 배반인 사건들의 합집합의 확률은 각 사건의 확률의 합이다.

연속확률분포★★★

균일 분포

균일 분포는 연속형 확률변수인 X가 취할 수 있는 모든 값에 대하여 같은 확률을 갖고 있는 분포를 의미한다.
그래프 아래 면적의 넓이는 확률의 총합인 1이다.

정규분포

대표적인 연속형 확률분포 중 하나로 평균이 μ이고, 표준편차가 σ인 분포를 의미한다.
분포의 모양은 평균값에 가장 많이 몰려 있고, 평균에서 멀어질수록 빈도수가 낮은 종 모양의 그래프를 갖는다.

t-분포

자유도가 n인 t-분포는 표준정규분포와 마찬가지로 평균이 0이고 좌우가 대칭인 종 모양의 그래프지만 정규분포보다 두꺼운 꼬리를 갖는다.
현실적으로 모표준편차를 모르기 때문에 t-분포를 이용하여 모평균 검정 또는 두 집단의 평균이 동일한지 계산하기 위한 검정통계량으로 활용된다.
자유도가 커질수록 t-분포는 표준정규분포에 가까워진다.

카이제곱 분포

표준정규분포를 따르는 확률변수 Z1, Z2, Z3, ..., Zn의 제곱의 합X는 자유도가 n인 카이제곱 분포를 따른다.
모평균과 모분산을 모르는 두 개 이상의 집단 간 동질성 검정 또는 모분산 검정을 위해 활용한다.

F 분포

연속확률변수

확률변수가 취할 수 있는 실수 값이 어떤 특정 구간 전체에 해당하여 그 수를 셀 수 없는 변수를 연속확률변수라 한다.
확률밀도함수의 아래 면적이 확률을 의미한다.
예: 신생아의 몸무게, 태풍으로 내린 강우량, 심장발작 이후 생존기간 등

기댓값, 분산, 표준편차★★★

기댓값

특정 사건이 시행되었을 때 확률변수 X가 취할 수 있는 값의 평균 값
확률변수 X의 값과 그 X가 발생할 확률의 곱들의 합으로 구할 수 있다.
관측될 것이라고 기대되는 관측값에 대한 평균이므로 기댓값이라고 하며, 확률변수의 평균, 즉 모평균은 통계분석에서 중요한 추론의 대상이다.

분산

분산: 데이터들이 중심에서 얼마나 떨어져 있는지를 알아보기 위한 측도
관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 개수로 나눠서 구한다.
확률변수의 분산: 확률변수가 취할 수 있는 값들이 그 중심(모평균)에서 얼마나 떨어져 있는지를 측정하는 측도다. 값이 크면 클수록 확률 X값이 기댓값에서 멀리 떨어져 있을 수 있다.
확률변수의 분산은 확률변수의 평균과 마찬가지로 이미 측정되어 있는 값에 대한 것이 아니고 앞으로 측정 또는 관측될 가능성이 있는 값들에 대한 측도다.

표준편차

자료의 산포도를 나타내는 수치로, 분산의 양의 제곱근으로 정의
분산과 같이 값이 클수록 기댓값으로부터 멀리 떨어져 있다는 의미
표준편차의 사용 목적은 기존 자료와의 단위 통일

꼭 알아둬야 하는 통계 개념

첨도와 왜도

첨도(kurtosis)는 확률분포의 뾰족한 정도를 나타내는 측도
- 값이 3에 가까울수록 정규분포 모양을 갖는다
- 첨도값은 3을 기준으로 뾰족한 정도를 나타내지만 정규분포의 첨도를 0으로 나타내기 위해 첨도값에서 3을 빼서 사용하기도 한다.

왜도(skewness)는 확률분포의 비대칭 정도를 나타내는 측도
- 왜도값이 0인 경우에는 정규분포와 유사한 모습으로 평균, 중앙값, 최빈값이 모두 같다.

공분산

공분산(Covariance)은 두 확률변수 X, Y의 상관 정도를 나타내는 값으로, 하나의 확률변수가 증가할 때 다른 확률변수가 증가하는지 혹은 감소하는지를 알 수 있다.
공분산이 양수면 X가 증가할 때 Y도 증가하며, 공분산이 음수면 X가 증가할 때 Y는 감소한다.
문제점: 공분산 값이 100이라는 양숫값을 갖는다면 X, Y의 두 확률분포가 어느 정도의 선형성을 갖는지 알 수 없다는 것이다.

상관계수

상관계수(Correlation)는 공분산의 문제를 해결한 값으로, -1과 1 사이의 값을 가지며 공분산을 X의 표준편차와 Y의 표준편차 모두로 나눈 값이다.

추정

모수의 추정

통계적 방법론에서 궁극적으로 알고 싶은 것은 모집단의 확률분포 및 특성을 알려주는 모평균과 모분산과 같은 값들인 모수라고 한다.
우리가 원하는 것은 모수이지만, 현실적으로 모집단 전체를 대상으로 조사하는 것은 거의 불가능하거나 쉬운 일이 아니기 때문에 대부분 표본조사를 실시하여 모수를 추정한다.

점추정

점추정이란 모집단의 모수, 특히 모평균을 추정할 때 모평균을 하나의 특정한 값이라고 예측하는 것이다. 모평균을 추정하기 위한 불편추정량은 표본집단의 평균값인 표본평균이 대표적이다.
불편(unbiased)추정량이란 모수를 추정할 때 추정하는 값과 실제 모수 값의 차이의 기댓값이 0으로 어느 한쪽으로 편향되지 않아 모수를 추정하기에 이상적인 값을 의미한다. 불편추정량 중에서 최소의 분산을 가진 추정량이 가장 좋은 추정량이다.

구간추정

점추정은 모수가 특정한 값이라 예상하는 반면, 구간추정은 모수가 특정한 구간 안에 존재할 것이라 예상하는 것이다.
구간추정은 모수가 특정 구간 안에 포함될 확률인 신뢰도(신뢰수준)가 필요하다.
신뢰도(신뢰수준)로는 95%와 99%를 가장 많이 사용한다.

가설검정★★★

가설검정의 개념

통계적 가설검정(statistical hypothesis test)은 모집단의 특성에 대한 주장 또는 가설을 세우고 표본에서 얻은 정보를 이용해 가설이 옳은지를 판정하는 과정이다.
통계적 가설은 귀무가설과 대립가설로 구분할 수 있다.

귀무가설(null hypothesis)

모집단이 어떠한 특징을 지닐 것으로 여겨지는 가설로서 일반적으로 '차이가 없다' '같다'(=) 기호를 사용하여 나타낼 수 있는 가설로 흔히 H0로 나타낸다.
실험, 연구를 통해 기각하고자 하는 어떤 가설로, H0로 표시한다. 대립가설과 상반되며 귀무가설의 기각을 통해 입증하고자 하는 주장을 관철할 수 있다.

대립가설(alternative hypothesis)

귀무가설이 틀렸다고 판단될 경우 채택되는 가설로 H1로 나타낸다.
대립가설은 실험, 연구를 통해 증명하고자 하는 새로운 아이디어 혹은 가설에 해당한다.

제1종 오류와 제2종 오류★★★

제1종 오류: 귀무가설이 사실인데 귀무가설이 틀렸다고 결정하는 오류
제2종 오류: 귀무가설이 사실이 아님에도 불구하고 귀무가설이 옳다고 결정하는 오류

검정통계량(test statistic)

귀무가설의 채택 여부를 판단하기 위하여 표본조사를 실시하였을 때 특정 수식에 의하여 표본들로부터 얻을 수 있는 값
귀무가설의 옳고 그름을 판단할 수 있는 값

기각역

기각역은 귀무가설을 기각하게 될 검정통계량의 영역으로, 검정통계량이 기각역 내에 있으면 귀무가설을 기각한다. 반대로 검정 통계량이 기각역 밖의 채택역에 있으면 귀무가설을 기가할 수 없다. 기각역의 경곗값을 임곗값(critical value)이라고 한다.

유의수준(significance level)

유의수준은 귀무가설이 참인데도 이를 잘못 기각하는 오류를 범할 확률의 최대 허용 한계로, 1%(0.01)와 5%(0.05)를 주로 사용하며 가설검정을 수행하는 환경에 맞게 조절할 수 있다.
가설검정을 수행하는 데 있어 제1종 오류와 제2종 오류 모두를 줄일 수 있다면 아주 이상적이다. 하지만 제1종 오류와 제2종 오류는 서로 반비례 관계로 하나를 낮추면 다른 하나가 커지기 때문에 제1종 오류를 허용할 수 있는 최대 확률 유의수준을 설정하여 가설검정을 수행한다.

유의확률(signigicance probability)

유의확률 또는 p-value는 귀무가설을 지지하는 정도를 나타낸 확률값으로 p-value가 유의수준 a보다 작은 경우에는 귀무가설이 참임을 가정했을 때 이러한 결과가 나올 확률이 매우 적다고 해석할 수 있다. 따라서 귀무가설을 기각하고 대립가설을 채택한다.
반면 p-value가 유의수준 a보다 큰 경우네는 대립가설을 기각하고 귀무가설을 채택하게 된다.

비모수 검정

모수검정 vs. 비모수 검정

모수검정
- 표본이 정규성을 갖는다는 모수적 특성을 이용
- 표본의 정규성이 반드시 확보되어야 한다.
비모수 검정
- 정규성 검정에서 정규분포를 따르지 않는다고 증명되거나 표본 군집당 10명 미만의 소규모 실험에서와 같이 정규분포임을 가정할 수 없는 경우에 사용
- 정규분포를 따르지 않는 경우 자료를 크기순으로 배열하여 순위를 매긴 다음 순위의 합을 통해 차이를 비교하는 순위합검정을 적용할 수 있다.
- 숫자로는 표현되지만 수량화할 수 없고 평균을 낼 수도 없는 서열척도의 경우에는 비록 연속형 자료는 아니지만, 순위의 합을 이용하는 비모수적 방법을 적용하는 것은 가능하다.
- 비모수 검정은 모수의 분포에 대해 어떠한 가정(정규분포)도 하지 않는 검정이다.
- 이상치로 인해 평균보다 중앙값이 더 바람직한 경우, 표본의 크기가 작은 경우, 순위와 같은 서수 데이터인 경우에 사용한다.

모수검정과 비모수 검정의 차이★★

'[자격증] > ADsP 데이터분석 준전문가' 카테고리의 다른 글

[14day] 데이터 마이닝 (1)	2024.10.22
[8day] 데이터 마트 & 데이터 탐색 (0)	2024.10.18
[6day] 분석 거버넌스 체계 수립 (0)	2024.10.16
[5day] 마스터플랜 수립 (0)	2024.10.15
[4day] 분석 프로젝트 관리 방안 (0)	2024.10.15

티스토리툴바