본문 바로가기
[자격증]/ADsP 데이터분석 준전문가

[9day] 통계의 이해

by 에디터 윤슬 2024. 10. 18.
 

통계와 표본 조사

통계

  • 통계학: 불확실한 상황에서 효과적인 의사결정을 할 수 있도록 수치자료를 수집하고, 정리하고, 표현하고, 분석하는 이론과 방법을 연구하는 학문
  • 통계분석: 특정집단을 대상으로 자료를 수집하여 대상집단에 대한 정보를 구하고, 적절한 통계분석 방법을 이용하여 의사결정(통계적 추론)을 하는 과정

표본조사

  • 전수조사가 불가능할 때 특정 집단을 대표할 수 있는 표본집단을 선별하여 표본조사를 실시
  • 반드시 특정 집단을 대표할 수 있는 집단이어야 한다. 이를 표본의 대표성이라 한다.
  • 표본의 대표성을 신뢰할 수 있어야 한다.

표본추출 방법★★

단순 랜덤 추출법

  • N개의 모집단에서 n개의 데이터를 무작위로 추출하는 방법

계통 추출법

  • 모집단의 원소에 차례대로 번호를 부여한 뒤, 일정한 간격을 두고 데이터를 추출하는 방법
  • N개의 모집단에서 K개씩(K = N/n) n개의 구간으로 나눈다.

집락(군집: Cluster) 추출법

  • 데이터를 여러 집락으로 구분한 뒤, 단순 랜덤 추출법에 의하여 선택된 집락의 데이터를 표본으로 사용하는 방법
  • 각 집락은 동질적이며, 집락 내 데이터는 서로 이질적

층화 추출법

  • 집락 추출법과 유사하나 반대의 성격을 지닌 추출 방법
  • 각 집락은 서로 이질적이며, 군집 내 데이터는 서로 동질적

 

측정과 척도★★★

  • 측정: 표본조사를 실시하는 경우 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하게 관측해 자료를 얻는 것
  • 척도: 관측 대상의 속성을 측정하여 그 값이 숫자로 나타나도록 일정한 규칙을 정하여 바꾸는 도구

척도의 종류

구분 특징 예시
질적 척도 명목척도 측정 대상이 어느 집단에 속하는지 나타내는 자료 성별, 지역 등
순서척도 측정 대상이 명목척도이면서 서열 관계를 갖는 자료 선호도, 신용도, 학년 등
양적 척도 구간척도 측정 대상이 가지고 있는 속성의 양을 측정할 수 있으며 두 구간 사이에 의미가 있는 자료 온도, 지수 등
비율척도 측정 대상이 구간척도이면서 절대적 기준 0이 존재하여 사칙연산이 가능한 자료 신장, 무게, 점수, 가격 등

 

기술통계와 추리통계★★

기술통계

  • 기술 통계는 표본 자체의 속성이나 특징을 파악하는 데 중점을 두는 데이터 분석 통계다.
  • 목적: 자료를 요약하고 조직화, 단순화
  • 표본을 설명해주는 데이터의 최솟값, 최댓값, 중위수 등의 통계량이 바로 기술 통계량이며, 모집단의 특성을 유추하는 데 사용할 수 있다.

추리통계

  • 수집한 데이터를 바탕으로 '추론 및 예측'하는 통계 기법
  • 표본에서 얻은 통계치를 바탕으로 오차를 고려하면서 모수를 확률적으로 추정하는 통계 기법
  • 표본에서 얻은 통계치를 가지고 모집단의 특성을 추정하는 데 초점을 둔다.
  • 가설을 검증하거나 확률적인 가능성을 파악한다.

 

확률

확률 기초★★

  • 확률: 발생 가능한 모든 사건들의 집합 표본공간에서 표본공간의 부분집합인 특정 사건 A가 발생할 수 있는 비율을 나타내는 값.
    • 0과 1 사이의 값
    • 가능한 모든 사건의 확률의 합은 항상 1이다.

  • 조건부 확률: 특정 사건 A가 발생했다는 것이 사실이라는 전제하에 또 다른 사건 B가 발생할 확률을 나타낸 값
    • 0과 1사이의 값

독립사건과 배반사건★★★

  • 독립사건: 서로에게 영향을 주지 않는 두 개의 사건

  • 배반사건: 두 사건 A와 B에 대하여 교집합, 즉 공통된 부분이 없는 경우. 동시에 일어날 수 없는 사건

확률변수와 확률분표 그리고 확률함수★★★

  • 확률변수: 무작위 실험을 했을 때 특정 확률로 발생하는 각각의 결과를 수치적 값으로 표현하는 변수
    • 동전 던지기 실험에서 앞면이 나온 결과에 대해 '1', 뒷면이 나온 결과에 대해 '0'이라는 실수값을 부여할 때, 실수값에 부여하는 변수를 확률변수라 한다.
  • 확률분포: 확률변수의 모든 값과 그에 대응하는 확률이 어떻게 분포하고 있는지가 바로 확률분포다. 이때 확률변수에 의해 정의된 실수를 확률에 대응시키는 함수를 확률함수라 한다. 이산확률분포의 확률함수를 '확률질량함수', 연속확률분포의 확률함수를 '확률밀도함수'라 한다.

 

이산확률분포★★★

베르누이 분포

  • 확률변수 X가 취할 수 있는 값이 두 개인 경우로 일반적으로 한 번의 시행을 할 때 성공과 실패로 나눌 수 있는 성공할 확률이 p인 분포를 의미한다.
  • 예: 하나의 동전을 던져서 앞면이 나올 확률, 제비뽑기에서 당첨될 확률, 시험에 합격하거나 불합격할 확률 등

이항 분포

  • n번의 베르누이 시행(성공 또는 실패)에서 k번 성공할 확률의 분포를 의미
  • 예: 하나의 동전을 3번 던져서 앞면이 2번 나올 확률, 하나의 주사위를 5번 던져서 1이 한 번 나올 확률, 3번의 제비뽑기에서 1번 당첨될 확률 등을 예로 들 수 있다.

기하 분포

  • 성공확률이 p인 베르누이 시행에서 처음으로 성공이 나올 때까지 K번 실패할 확률의 분포를 의미한다.
  • 동전을 던져서 세 번째에 앞면이 나올 확률, 주사위를 던져서 네 번째에 1이 나올 확률, 제비뽑기를 복원 추출로 시행할 때 다섯 번째에 당첨될 확률 등을 예로 들 수 있다

다항 분포

  • 이항 분포를 확장한 개념으로, n번의 시행에서 각 시행이 3개 이상의 결과를 가질 수 있는 확률의 분포를 의미한다
  • 주사위를 n번 던졌을때 1의 눈이 p1의 확률로 X번, 2의 눈이 p2의 확률로 Y번, 3 이상의 눈이 P3의 확률로 Z번 나올 확률 등을 예로 들 수 있다.

포아송 분포

  • 단위 시간 또는 단위 공간 내에서 발생할 수 있는 사건의 발생 횟수에 대한 확률분포를 의미한다.
  • 8시간 동안 3번의 장난전화가 왔을 때 1시간 동안 장난전화가 2번 올 확률, 5페이지 안에 3개의 오타가 있다면 1페이지 안에 2개의 오타가 있을 확률 등을 예로 들 수 있다.

이산확률변수

  • 확률변수가 취할 수 있는 실수 값의 수를 셀 수 있는 변수를 이산확률변수라 한다.
  • 이산확률변수는 셀 수 있는 실수값을 취한다.
  • 서로 배반인 사건들의 합집합의 확률은 각 사건의 확률의 합이다.

 

연속확률분포★★★

균일 분포

  • 균일 분포는 연속형 확률변수인 X가 취할 수 있는 모든 값에 대하여 같은 확률을 갖고 있는 분포를 의미한다.
  • 그래프 아래 면적의 넓이는 확률의 총합인 1이다.

정규분포

  • 대표적인 연속형 확률분포 중 하나로 평균이 μ이고, 표준편차가 σ인 분포를 의미한다.
  • 분포의 모양은 평균값에 가장 많이 몰려 있고, 평균에서 멀어질수록 빈도수가 낮은 종 모양의 그래프를 갖는다.

t-분포

  • 자유도가 n인 t-분포는 표준정규분포와 마찬가지로 평균이 0이고 좌우가 대칭인 종 모양의 그래프지만 정규분포보다 두꺼운 꼬리를 갖는다.
  • 현실적으로 모표준편차를 모르기 때문에 t-분포를 이용하여 모평균 검정 또는 두 집단의 평균이 동일한지 계산하기 위한 검정통계량으로 활용된다.
  • 자유도가 커질수록 t-분포는 표준정규분포에 가까워진다.

카이제곱 분포

  • 표준정규분포를 따르는 확률변수 Z1, Z2, Z3, ..., Zn의 제곱의 합X는 자유도가 n인 카이제곱 분포를 따른다.
  • 모평균과 모분산을 모르는 두 개 이상의 집단 간 동질성 검정 또는 모분산 검정을 위해 활용한다.

F 분포

연속확률변수

  • 확률변수가 취할 수 있는 실수 값이 어떤 특정 구간 전체에 해당하여 그 수를 셀 수 없는 변수를 연속확률변수라 한다.
  • 확률밀도함수의 아래 면적이 확률을 의미한다.
  • 예: 신생아의 몸무게, 태풍으로 내린 강우량, 심장발작 이후 생존기간 등

기댓값, 분산, 표준편차★★★

기댓값

  • 특정 사건이 시행되었을 때 확률변수 X가 취할 수 있는 값의 평균 값
  • 확률변수 X의 값과 그 X가 발생할 확률의 곱들의 합으로 구할 수 있다.
  • 관측될 것이라고 기대되는 관측값에 대한 평균이므로 기댓값이라고 하며, 확률변수의 평균, 즉 모평균은 통계분석에서 중요한 추론의 대상이다.

분산

  • 분산: 데이터들이 중심에서 얼마나 떨어져 있는지를 알아보기 위한 측도
  • 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 개수로 나눠서 구한다.
  • 확률변수의 분산: 확률변수가 취할 수 있는 값들이 그 중심(모평균)에서 얼마나 떨어져 있는지를 측정하는 측도다. 값이 크면 클수록 확률 X값이 기댓값에서 멀리 떨어져 있을 수 있다.
  • 확률변수의 분산은 확률변수의 평균과 마찬가지로 이미 측정되어 있는 값에 대한 것이 아니고 앞으로 측정 또는 관측될 가능성이 있는 값들에 대한 측도다.

표준편차

  • 자료의 산포도를 나타내는 수치로, 분산의 양의 제곱근으로 정의
  • 분산과 같이 값이 클수록 기댓값으로부터 멀리 떨어져 있다는 의미
  • 표준편차의 사용 목적은 기존 자료와의 단위 통일

 

꼭 알아둬야 하는 통계 개념

첨도와 왜도

  • 첨도(kurtosis)는 확률분포의 뾰족한 정도를 나타내는 측도
    • 값이 3에 가까울수록 정규분포 모양을 갖는다
    • 첨도값은 3을 기준으로 뾰족한 정도를 나타내지만 정규분포의 첨도를 0으로 나타내기 위해 첨도값에서 3을 빼서 사용하기도 한다.

  • 왜도(skewness)는 확률분포의 비대칭 정도를 나타내는 측도
    • 왜도값이 0인 경우에는 정규분포와 유사한 모습으로 평균, 중앙값, 최빈값이 모두 같다.

공분산

  • 공분산(Covariance)은 두 확률변수 X, Y의 상관 정도를 나타내는 값으로, 하나의 확률변수가 증가할 때 다른 확률변수가 증가하는지 혹은 감소하는지를 알 수 있다.
  • 공분산이 양수면 X가 증가할 때 Y도 증가하며, 공분산이 음수면 X가 증가할 때 Y는 감소한다.
  • 문제점: 공분산 값이 100이라는 양숫값을 갖는다면 X, Y의 두 확률분포가 어느 정도의 선형성을 갖는지 알 수 없다는 것이다.

상관계수

  • 상관계수(Correlation)는 공분산의 문제를 해결한 값으로, -1과 1 사이의 값을 가지며 공분산을 X의 표준편차와 Y의 표준편차 모두로 나눈 값이다.

 

추정

모수의 추정

  • 통계적 방법론에서 궁극적으로 알고 싶은 것은 모집단의 확률분포 및 특성을 알려주는 모평균과 모분산과 같은 값들인 모수라고 한다.
  • 우리가 원하는 것은 모수이지만, 현실적으로 모집단 전체를 대상으로 조사하는 것은 거의 불가능하거나 쉬운 일이 아니기 때문에 대부분 표본조사를 실시하여 모수를 추정한다.

점추정

  • 점추정이란 모집단의 모수, 특히 모평균을 추정할 때 모평균을 하나의 특정한 값이라고 예측하는 것이다. 모평균을 추정하기 위한 불편추정량은 표본집단의 평균값인 표본평균이 대표적이다.
  • 불편(unbiased)추정량이란 모수를 추정할 때 추정하는 값과 실제 모수 값의 차이의 기댓값이 0으로 어느 한쪽으로 편향되지 않아 모수를 추정하기에 이상적인 값을 의미한다. 불편추정량 중에서 최소의 분산을 가진 추정량이 가장 좋은 추정량이다. 

구간추정

  • 점추정은 모수가 특정한 값이라 예상하는 반면, 구간추정은 모수가 특정한 구간 안에 존재할 것이라 예상하는 것이다.
  • 구간추정은 모수가 특정 구간 안에 포함될 확률인 신뢰도(신뢰수준)가 필요하다.
  • 신뢰도(신뢰수준)로는 95%와 99%를 가장 많이 사용한다.

가설검정★★★

가설검정의 개념

  • 통계적 가설검정(statistical hypothesis test)은 모집단의 특성에 대한 주장 또는 가설을 세우고 표본에서 얻은 정보를 이용해 가설이 옳은지를 판정하는 과정이다.
  • 통계적 가설은 귀무가설과 대립가설로 구분할 수 있다.

귀무가설(null hypothesis)

  • 모집단이 어떠한 특징을 지닐 것으로 여겨지는 가설로서 일반적으로 '차이가 없다' '같다'(=) 기호를 사용하여 나타낼 수 있는 가설로 흔히 H0로 나타낸다.
  • 실험, 연구를 통해 기각하고자 하는 어떤 가설로, H0로 표시한다. 대립가설과 상반되며 귀무가설의 기각을 통해 입증하고자 하는 주장을 관철할 수 있다.

대립가설(alternative hypothesis)

  • 귀무가설이 틀렸다고 판단될 경우 채택되는 가설로 H1로 나타낸다.
  • 대립가설은 실험, 연구를 통해 증명하고자 하는 새로운 아이디어 혹은 가설에 해당한다.

제1종 오류와 제2종 오류★★★

  • 제1종 오류: 귀무가설이 사실인데 귀무가설이 틀렸다고 결정하는 오류
  • 제2종 오류: 귀무가설이 사실이 아님에도 불구하고 귀무가설이 옳다고 결정하는 오류

검정통계량(test statistic)

  • 귀무가설의 채택 여부를 판단하기 위하여 표본조사를 실시하였을 때 특정 수식에 의하여 표본들로부터 얻을 수 있는 값
  • 귀무가설의 옳고 그름을 판단할 수 있는 값

기각역

  • 기각역은 귀무가설을 기각하게 될 검정통계량의 영역으로, 검정통계량이 기각역 내에 있으면 귀무가설을 기각한다. 반대로 검정 통계량이 기각역 밖의 채택역에 있으면 귀무가설을 기가할 수 없다. 기각역의 경곗값을 임곗값(critical value)이라고 한다.

유의수준(significance level)

  • 유의수준은 귀무가설이 참인데도 이를 잘못 기각하는 오류를 범할 확률의 최대 허용 한계로, 1%(0.01)와 5%(0.05)를 주로 사용하며 가설검정을 수행하는 환경에 맞게 조절할 수 있다.
  • 가설검정을 수행하는 데 있어 제1종 오류와 제2종 오류 모두를 줄일 수 있다면 아주 이상적이다. 하지만 제1종 오류와 제2종 오류는 서로 반비례 관계로 하나를 낮추면 다른 하나가 커지기 때문에 제1종 오류를 허용할 수 있는 최대 확률 유의수준을 설정하여 가설검정을 수행한다.

유의확률(signigicance probability)

  • 유의확률 또는 p-value는 귀무가설을 지지하는 정도를 나타낸 확률값으로 p-value가 유의수준 a보다 작은 경우에는 귀무가설이 참임을 가정했을 때 이러한 결과가 나올 확률이 매우 적다고 해석할 수 있다. 따라서 귀무가설을 기각하고 대립가설을 채택한다.
  • 반면 p-value가 유의수준 a보다 큰 경우네는 대립가설을 기각하고 귀무가설을 채택하게 된다.

비모수 검정

모수검정 vs. 비모수 검정

  • 모수검정
    • 표본이 정규성을 갖는다는 모수적 특성을 이용
    • 표본의 정규성이 반드시 확보되어야 한다.
  • 비모수 검정
    • 정규성 검정에서 정규분포를 따르지 않는다고 증명되거나 표본 군집당 10명 미만의 소규모 실험에서와 같이 정규분포임을 가정할 수 없는 경우에 사용
    • 정규분포를 따르지 않는 경우 자료를 크기순으로 배열하여 순위를 매긴 다음 순위의 합을 통해 차이를 비교하는 순위합검정을 적용할 수 있다.
    • 숫자로는 표현되지만 수량화할 수 없고 평균을 낼 수도 없는 서열척도의 경우에는 비록 연속형 자료는 아니지만, 순위의 합을 이용하는 비모수적 방법을 적용하는 것은 가능하다.
    • 비모수 검정은 모수의 분포에 대해 어떠한 가정(정규분포)도 하지 않는 검정이다.
    • 이상치로 인해 평균보다 중앙값이 더 바람직한 경우, 표본의 크기가 작은 경우, 순위와 같은 서수 데이터인 경우에 사용한다.

모수검정과 비모수 검정의 차이★★