에디터 윤슬 2024. 11. 14. 13:42

목표

  • 다양한 데이터의 종류를 이해
  • 편차, 분산, 표준편차의 개념을 이해
  • 표본분포와 히스토그램의 개념을 학습
  • 신뢰구간과 정규분포의 개념을 익히고 응용

목차

    01. 데이터의 종류

    • 데이터 분석에 사용되는 통계
    구분 상세
    분석 기법 * 기초 통계분석
    * 상관분석
    * 회귀분석
    * 분류분석
    * 군집분석
    * RFM 분석
    분석 방법론 * A/B TEST
    통계이론 * 기초통계이론(평균, 분산, 표준편차)
    * 정규분포와 중심극한정리
    * 신뢰구간과 유의수준
    * 가설 설정
    * 통계적 유의성 검정
    * 통계적 가설 검정
    • 데이터의 종류
    데이터 종류 개념 예시
    수치형 숫자를 이용해 표현할 수 있는 데이터

    이산형, 연속형을 모두 포함하는 개념
    체중, 신장, 사고선수, 일 방문자수
    연속형 일정 범위 안에서 어떤 값이든 취할 수 있는 데이터 체중, 신장
    이산형 횟수와 값은 정수형 값만 취할 수 있는 데이터
    즉, 소수점의 의미가 없는 데이터를 의미(수치형 데이터와의 차이점)
    사고건수, 일 방문자수
    범주형 가능한 범주 안의 값만을 취하는 데이터
    = 값이 달라짐에 따라 좋거나 나쁘다고 할 수 없는 데이터
    = 명목형

    이진형, 순서형을 모두 포함하는 개념
    나라, 도시, 혈액형
    성공여부, 등수, MBTI
    이진형 두 개의 값만을 가지는 범주형 데이터의 특수한 경우
    * 0과 1
    * 예 / 아니오
    * 참 / 거짓
    성별
    성공여부
    순서형 값들 사이에 분명한 순위가 있는 데이터 등수

     

     

    02. 편차, 분산, 표준편차, 표본분포

    • 평균: 모든 값의 총 합을 개수로 나눈 값 ( 34/5 = 6.8 )
    • 중간값: 데이터 중 가운데 위치한 값 ( 5 개 중 중간에 위치한 6 )
    • 최빈값: 데이터 중 가장 많이 도출된 값 ( 6 이라는 숫자가 2번 있으므로 6 )
      • 평균, 중앙값, 최빈값은 데이터의 'WHERE = (어디에 존재하는가)'를 표현하는 개념
    • 편차, 분산, 표준편차
      • 분산과 편차는 'HOW = 어떻게 존재하는가'에 대한 개념
      • 편차(deviation): 하나의 값에서 평균을 뺀 값 = 평균으로부터 얼마나 떨어져 있는지를 의미
      • 분산(variance): 편차의 합이 0으로 나오는 것을 방지하기 위해 생성된 개념 = 편차 제곱합의 평균
      • 표준편차: 분산에 제곱근을 씌워준 값. (=원래 단위로 되돌리기 = standard deviation(σ))
    • 모집단, 표본, 표본분포
      • 모집단: 어떤 데이터 집합을 구성하는 전체 대상
      • 표본: 모집단 중 일부. 모집단의 부분집합
      • 표본분포: 표본의 분포. 표본이 흩어져 있는 정도. 표본통계량으로부터 얻은 도수분포
        • 표본평균의 분포: 모집단에서 여러 표본을 추출하고 각 표본의 평균을 계산한다면, 이는 중심극한정리에 따라 정규분포에 가까워집니다. 이는 표본 크기가 충분히 크다면 표본 평균이 정규분포를 따른다는 것을 의미합니다.
        • 표본분산의 분포: 모집단에서 여러 표본을 추출하고 각 표본의 분산을 계산한다면, 이 표본분산들의 분포는 카이제곱 분포(다음강의에서 설명)를 따릅니다. 이는 모집단이 정규분포를 따를 때 보다 높게 성립됩니다.
      • 표준오차: 표본의 표준편차. = 표본평균의 평균과 모평균의 차이
    • 모집단에서 표본을 추출하고, 이를 시각화하여 통계적 의미를 찾기
      • 도수: 특정 구간에 발생한 값의 수
      • 상대도수: 특정 도수를 전체 도수로 나눈 비율
      • 도수분포표: 각 값에 대한 도수와 상대도수를 나타내는 표
      • 히스토그램: 도수분포표를 활용하여 만든 막대그래프 😄
      • 임의표본추출: 무작위로 표본을 추출하는 것
      • 편향: 한쪽으로 치우쳐져 있음
    순서 내용
    1 최댓값, 최솟값, 계산
    2 최댓값, 최솟값을 포함하여 데이터를 특정 범위(계급)으로 나눔
    3 각 계급을 대표하는 수치(계급값) 정하기
    4 각 계급에 포함된 데이터 개수(도수)를 카운트
    5 각 계급의 도수가 전체에서 차지하는 비율(상대도수)을 계산
    6 특정 계급까지의 도수를 모두 sum(누적도수)

     

    03. 정규분포, 신뢰구간

    네 가지 모두 정규분포

    • 정규분포 특징
      • 분포는 평균을 중심으로 좌우 대칭의 형태.
      • 곡선은 각 확률값을 나타내며, 모두 더하면 1. (동전을 뒤집어서 앞면이 나올 확률은 2분의 1 + 뒷면이 나올 확률 2분의 1 = 전체 확률 1)
      • 정규분포는 평균과 분산(퍼진정도)에 따라 다른 형태를 가진다
      • 평균 0, 분산 1을 가지는 경우, 이는 표준정규분포. (그림의 붉은색 그래프)
    • 표준화
      • standard scaler 공식: 확률변수 X(값)에서 평균 m을 빼고 표준편차로 나눈 값
      • 데이터분석시 표준화가 필요한 경우: 머신러닝 모델을 만들 때 / 데이터의 범위가 많이 차이나는 경우
    • 신뢰구간: 특정 범위 내에 값이 존재할 것으로 예측되는 영역
    • 신뢰수준: 실제 모수를 추정하는데 몇 퍼센트의 확률로 신뢰구간이 실제 모수를 포함하게 되는 확률. 주로 95%와 99% 이용
      • 신뢰수준 95% : 무작위로 표본을 추출했을 때, 100번 중 95번은 모집단의 값을 포함
      • 신뢰수준 99% : 무작위로 표본을 추출했을 때, 100번 중 99번은 모집단의 값을 포함
      • 신뢰수준이 높아지게 되면 → 신뢰구간이 넓어지지만 → 정확한 예측이 어렵기 때문에, 95% 신뢰수준보다 99% 신뢰수준이 좋다고 할 수 없다.