본문 바로가기
[업무 지식]/Statistics

[통계적 실험]

by 에디터 윤슬 2024. 11. 14.

목표

  • 데이터의 통계적 실험 이해
  • A/B 테스트 이론 학습
  • 통계적 실험의 유의성(우연인가?): p-value 이해
  • 통계적 실험의 검정방식 숙지
  • python 코드로 작성하며 활용

01. 데이터 분석가의 통계적 실험

  • 분석기법 선택하기

  • 변수: 대상의 속성이나 특성을 측정하여 기록한 것
  • 독립변수: 원인이 되는 변수. aka.설명변수
  • 종속변수: 결과가 되는 변수. aka.결과변수. 독립변수에 따라 그 값이 변할 것이라고 예상하는 변수.
  • 모수: 모집단을 대표하는 값
  • 모수통계: 모집단이 정규분포를 따른다는 가정하에 사용. 데이터분석가는 주로 모수통계를 진행. 평균, 분산 등의 값을 알고 있다는 가정 하에 진행하는 통계분석.
  • 비모수통계: 모집단이 정규분포가 아닐 때 사용됩니다. (이 말은 곧 표본의 크기가 충분히 크지 않음(30개 미만): 소규모 실험에 해당). 또는 평균, 분산 등의 값을 가정하지 않고 진행하는 통계분석.
정의 * 어떤 목적을 가지고 관찰을 통해 결과(측정값)를 얻어내는 것
목적 * 통계적 추론을 통해 진실에 가까운 값을 도출하기 위함
* 예시) 모든 까마귀는 검정색이다. -> 모든 까마귀가 검정색이 아닐 수도 있다 -> 전 세계 모든 까마귀 확인 불가능 -> 통계적 추론 실시 -> 진실에 가까운 값 도출
프로세스 * 가설 수립 -> 실험 설계 -> 데이터 수집 -> 추론 및 결론 도출

02. A/B TEST

  • 목적
    1. 고객의 니즈파악
    2. 최소 투자로 최대 이익 창출(ROI 상승)
구분 상세
정의 * A/B TEST는 두 가지(혹은 이상) 처리 방법 중 어떠한 쪽이 더 좋다라는 것을 입증하기 위해 실험군을 두 그룹으로 나누어 진행하는 실험
* 하나는 기준이 되는 기존의 방법이거나 아무런 처리도 적용하지 않은 방법
목적 1. UI/UX 개선: 서비스에 진입한 방문자의 니즈에 알맞게 UI,UX 가 친절하지 않은 경우 이탈할 가능성이 있다. 고객이 될 수 있었던 방문자를 놓치지 않으려면 A/B TEST를 통해 이를 개선하는 작업이 중요.

2. 전환율 증가: A/B TEST를 통해 무엇이 효과가 있는지(또는 없는지) 파악하여 전환율 상승에 도움

3. 매출 증가: A/B TEST를 통해 UX가 개선되면 전환율이 상승할 뿐만 아니라, 브랜드에 대한 고객 충성도 상승. 이는 곧 반복 구매로 이어져 매출 증가에 영향을 미친다
주요 지표 * 서비스 가입률
* 재방문율
* CTR(노출 대비 클릭률), CVR(클릭 대비 전환율, 구매전환율)
* ROAS(캠페인 비용 대비 캠페인 수익)
* eCPM(1,000회 광고 노출당 얻은 수익)

  • 프로세스: 5단계 진행. 모든 단계에서 통계적 개념 필요
순서 내용
1. 현행 데이터 탐색 * 주요 지표(도수분포표 등)를 기준으로 현재 데이터 탐색
2. 가설 설정 * 비즈니스 목표를 당성하는 데 필요한 KPI를 정의
* KPI 전환율 증가를 위한 귀무가설, 대립가설 설정
* 귀무가설
   - 차이가 없다, 의미가 없다, 연관이 없다
   - "새로운 광고 배너를 게재해도 기존과 차이가 없을 것이다"
* 대립가설
   - 귀무가설에 대립하는 명제
   - "새로운 광고 배너를 게재하면 기존과 차이가 있을 것이다(다를 것이다)" 
3. 유의수준 설정 * 귀무가설이 맞을 때 오류를 얼마나 허용할 것인지 기준을 정하는 단계
4. 테스트 설계 및 실행 * 사용자를 대조군과 실험군의 두 그룹으로 분리
* 대조군 그룹에게는 제품이나 서비스의 현재 버전을 보여주고, 실험군 그룹에게는 새 버전을 노출 처리
5. 테스트 결과 분석 * 측정 항목(가설)에 대해 두 그룹의 결과를 분석(검정통계량 분석)
* 통계적 방법으로 결과를 분석하여 대조군과 실험군 사이의 통계적으로 유의미한 차이가 있는지 확인
  • A/B 테스트 주의사항
    • 적절한 표본 크기: 표본의 크기가 충분하지 않으면 유의미한 결과를 얻을 수 없다. 적절한 표본 크기를 결정하고, 그에 맞는 시간과 자원을 투자.
    • 하나의 변수만 변경: A/B 테스트에서는 하나의 변수만을 변경. 두 가지 이상의 변수를 동시에 변경하면 어떤 변수가 영향을 미쳤는지 파악하기 힘들다.
    • 무작위성: A/B 테스트는 무작위로 선택된 사용자들에게 각각 다른 변수를 적용.
    • 적절한 분석 방법: A/B 테스트 결과를 해석할 때는 가설 검증을 위한 통계적 분석 방법을 선택하고, 유의수준을 설정.
    • 테스트 결과의 의미: A/B 테스트 결과가 통계적으로 유의미하더라도 항상 실제로 의미 있는 결과인지 한번 더 생각.
    • 정해진 기간 동안 진행: A/B 테스트는 동일한 기간 동안 진행. 그 기간 동안에만 결과를 수집하고, 분석. 너무 짧은 기간 동안에는 결과를 수집하기 어렵고, 너무 긴 기간 동안에는 사용자들의 행동이 변할 가능성이 있다.

 

03. 유의수준 설정하기

  • 표본을 추출하는 순간 모집단과 100% 일치할 수 없어 오류의 가능성을 전제로 진행
  • 가설 검정에서 결론을 해석하기 위해 기준인 유의수준을 세우고, 만족하는지 확인
구분 상세
정의 귀무가설(차이가 없을 것이라고 생각하는 가설)이 맞을 때 기각할 확률
표기 α
범용적 기준 * 0.05(5%)
* 0.01(1%)
* 0.10(10%)
신뢰도와의 관계 95%의 신뢰도를 기준으로 한다면 (1 - 0.95)인 0.05 값이 유의수준, 즉 반대의 개념

 

04. 검정통계량과 p-value: 실험 후 결과 해석

  • 결과 해석 단계 1: 검정 방식 정하기 & 검정통계량 계산하기
    • 검정통계량: 귀무가설을 채택 또는 기각하기 위해 사용하는 확률변수를 의미
      • 확률변수: 특정 확률로 발생하는 각각의 결과를 수치값으로 표현하는 변수
      • 확률에 대한 수치이므로, 0과 1사이의 값
예제

주사위를 던졌을 때 나오는 숫자를 확률변수 X 라고 가정하면,

각 X에 대한 확률 P(X)를 구하시오

 

- 확률변수 X는 1, 2, 3, 4, 5, 6

- 주사위 값이 1~6 중 어떤 수가 나올지 모르기 때문에 이를 확률변수라고 말한다.

- 각 X에 대한 확률을 1/6

  • 검정통계량은 표본 평균, 비율, 상관 계수 간의 차이 등 다양한 형태를 취할 수 있다
검정 방식 검정통계량 검정통계량 범위 활용대상 대상
Z 검정 Z-value -∞ ~ +∞  집단 개수: 주로 2개

* 표본의 평균 비교
* 모집단의 분산을 알 수 있는 경우 
연속형 자료
T 검정 t-value -∞ ~ +∞ 집단 개수: 주로 2개

* 표본의 평균 비교
* 포집단의 분산을 알 수 없는 경우
연속형 자료
카이제곱검정 x^2-value 0 ~ +∞ 집단 개수: 주로 2개 이상

* 표본의 비율이나 빈도 비교
범주형 자료
F 검정 F-value 0 ~ +∞ 집단 개수 : 주로 3개 이상

* 두 개 이상의 그룹의 분산 비교
* 3개 이상의 집단 간 평균의 차이 비교
범주형 자료
  • 결과 해석 단계 2: p-value
    • Probability-value: 확률을 뜻하고 0 이상 1 이하의 값
    • 어떤 사건이 우연히 발생할 확률
    • p-value가 0.05보다 작다 = 우연히 일어났을 가능성이 거의 없다 = 인과관계가 있다고 추정 = 대립가설 채택
    • p-value가 0.05보다 크다 = 우연히 일어났을 가능성이 높다 = 인과관계가 없다고 추정 = 대립가설 기각