본문 바로가기
[자격증]/ADsP 데이터분석 준전문가

[8day] 데이터 마트 & 데이터 탐색

by 에디터 윤슬 2024. 10. 18.
 

데이터 마트의 이해

데이터 마트

  • 분석 '목적'에 맞춰 데이터를 수집, 변형하는 과정이 필요
  • 특정 사용자가 관심을 갖는 데이터들을 주제별, 부서별로 추출하여 모은 비교적 작은 규모의 데이터 웨어하우스
  • 데이터 마트 개발: 목적별, 주제별, 부서별로 데이터를 수집하고 변형하여 한 곳에 모으는 작업
  • R에서 제공하는 reshape, sqldf, plyr 등의 다양한 패키지 활용 가능

 

데이터 전처리

  • 전처리(preprocessing)하는 과정이 꼭 필요하다.
  • 정제(cleansing)하는 과정과 분석 변수를 처리하는 과정이 포함
  • 정제 과정: 크게 결측값과 이상값을 처리하는 내용
  • 분석 변수 처리 과정: 변수 선택, 차원 축소, 파생변수 생성, 변수 변환, 클래스 불균형(불균형 데이터 처리)
전처리 정제 작업 외에도 변수처리 작업이 포함된다. 여기서 변수를 처리한다는 의미는 데이터 분석에 맞게 데이터셋의 변수들을 선택, 차원 축소, 파생변수 생성 등의 작업을 수행하는 것. 요약변수와 파생변수를 생성하는 작업은 분석에 있어 매우 중요하다
요약변수 원래의 데이터로부터 기본적인 통계 자료를 추출한 변수를 의미. 총 합계, 평균, 횟수, 성별 구분 등 분석에 활용되는 기본적인 변수들로 재활용성이 높다. 기초적인 통계자료들이 여기에 속한다.
파생변수 파생변수는 범용으로 활용되는 기본적인 통계자료가 아닌, 특정한 목적을 갖고 조건을 만족하는 변수들을 새롭게 생성한 것을 의미. 예로, 특정 매장의 월별 합계 혹은 특정 기간 남성 고객의 구매 총액 등과 같이 목적 및 조건을 만족하는 변수를 생성했다면 그것은 파생변수이다. 

 

탐색적 데이터 분석(EDA)

  • EDA(Exploratory Data Analysis)란 데이터를 이해하고 의미 있는 관계를 찾아내기 위해 데이터의 통곗값과 분표 등을 시각화하고 분석
  • 탐색적 데이터 분석을 통해 데이터 특성을 이해하고 이를 토대로 분석 모델을 구축할 수 있다

결측값

  • 결측값 처리는 중요한 과제 중 하나다. 결측값을 삭제하는 것이 일반적이나 경우에 따라 의미를 갖는 경우도 있다. 

결측값 대치 방법

  • 단순 대치법
    • 결측값이 존재하는 데이터를 삭제
    • 결측값이 많은 경우 대량의 데이터 손실이 발생할 수 있다
    • 단순 대치법을 위한 함수로 complete.cases 함수가 있다.

  • 평균 대치법
    • 평균 혹은 중앙값으로 결측값을 대치하여 불완전한 자료를 완전한 자료로 만드는 방법

  • 단순 확률 대치법
    • 평균 대치법에서 추정량 표준 오차의 과소 추정 문제를 보완하고자 고안된 방법.
    • K-Nearest Neighbor 방법: 주변 K개의 데이터 중 가장 많은 데이터로 대치하는 방법

K = 1인 경우 결측값으로 파란색이 유력해 보이지만, K= 4인 경우에는 결측값으로 검정색이 유력해 보인다. 따라서 주변 몇 개의 데이터가 결측값을 대치하기 좋은가에 대한 K를 선정하기가 쉽지 않다.

  • 다중 대치법
    • 여러 번의 대치를 통해 n개의 임의 완전자료를 만드는 방법
    • 결측값 대치, 분석, 결합의 세 단계로 구성

 

이상값

  • 다른 데이터와 비교하였을 때 극단적으로 크거나 극단적으로 작은 값을 의미
  • 제거하는 것이 일반적이나, 의미를 갖는 경우도 있으므로 목적이나 종류에 따라 사용자의 적절한 판단이 필요

이상값 판단★★★

  • ESD(Extreme Studentized Deviation)
    • ESD는 평균으로부터 '표준편차 3'만큼 떨어진 값들을 이상값으로 인식하는 방법.
    • 정규분포에서 99.7%의 자료들은 표준편차 3 안에 위치하므로 전체 데이터의 약 0.3퍼센트를 이상값으로 구분.

 

  • 사분위수
    • 25%에 해당하는 값(Q1)과 75%에 해당하는 값(Q3)을 활용하여 이상치를 판단하는 방법
    • IQR(사분범위, Interquartile Range): 사분위의 정상 범위. Q1 ~ Q3 사이를 의미. 
    • 일반적으로 사분범위에서 1.5분위수를 벗어나는 경우 이상치로 판단
    • Q1 - 1.5 * IQR > x  -> x는 이상값으로 간주
    • Q3 + 1.5 * IQR < y -> y는 이상값으로 간주