본문 바로가기
[자격증]/ADsP 데이터분석 준전문가

[3day] 분석 기획과 분석 방법론

by 에디터 윤슬 2024. 10. 13.

목차

     

    분석 기획

    정의

    • 어떠한 목표(What)를 달성하기 위하여 어떠한 데이터를 가지고 어떠한 방식(How)으로 수행할지에 대한 일련의 계획을 수립하는 사전작업

    특징

    • 수학/통계학적 지식, 분석 도구인 데이터 및 프로그래밍 기술, 해당 비즈니스에 대한 이해와 전문성에 대한 역량과 시각 등이 요구

    4가지 분석 주제★★★

     

    • 최적화(Optimization): 분석 대상 known & 분석 방법 Known
    • 솔루션(Solution): 분석 대상 Known & 분석 방법 Unknown
    • 발견(Discovery): 분석 대상 UnKnown & 분석 방법 UnKnown
    • 통찰(Insight): 분석 대상 UnKnown & 분석 방법 Known

    목표 시점별 분석 기획★★

    • 과제 중심적인 접근 방식 : 빠르게 해결해야 하는 경우, 빠른 수행과 문제 해결이 목정
    • 장기적인 마스터플랜 방식: 지속적인 분석 내재화를 위한 경우, 정확도와 무엇이 문제인가에 대한 문제 정의가 목적
      당면한 분석 주제 해결(과제 단위) 지속적 분석 문화 내재화(마스터플랜 단위)
    목적 빠르게 해결하는 것이 목적 지속적으로 해결하는 것이 목적
    1차 목표 Speed & Test Accuracy & Deploy
    과제 유형 Quick & Win Long Term View
    접근 방식 Problem Solving Problem Definition

     

    분석 기획 시 고려사항 ★★★

    • 가용 데이터 고려
      • 분석의 기본이 되는 데이터가 확보될 수 있는지에 대한 고려 필요
      • 데이터 유형에 대한 분석이 선행적으로 이뤄져야 한다
    • 적절한 활용 방안과 유스케이스의 탐색
      • "바퀴를 재발명하지 마라"라는 격언처럼 기존에 잘 구현되어 활용되는 유사 시나리오 및 솔루션을 최대한 활용
      • 과거의 유사한 분석 사례가 있다면 그 시나리오를 최대한 활용하여 과거의 실패를 반복하지 않는다
    • 장애 요소에 대한 사전 계획 수립
      • 발생 가능한 장애요소에 대한 사전 계획 수립 필요

    분석 방법론의 필요성

    분석 방법론이란?

    • 대규모 조직이 분석 프로젝트를 수행할 때는 구성원 간의 업무상 통일을 위한 철저한 조직 관리와 더불어 성공적인 프로젝트 수행을 위한 방법론이 필요하다
    • 방법론이란 주어진 과제를 해결하기 위해 조직이 어떠한 절차로 작업을 수행해 나갈 것인지 일련의 절차를 정의한 것

    필요성

    • 개인의 역량 혹은 우연한 성공에 기인해서는 안 된다. 일정한 수준의 품질을 갖춘 산출물과 프로젝트의 성공 가능성을 확보하고 제시할 수 있어야 한다.
    • 방법론 구성 요소의 이해★
    상세한 절차(Prodedure) 작업을 수행하기 위한 절차를 의미한다
    방법(Methods) 해당 절차를 수행하기 위한 방법으로, 전문가 자문을 구하거나 고객의 요구사항 파악을 위한 대면조사 등
    도구와 기법(Tools & Techniques) R이나 파이썬 같은 분석 수행 언어, 파워포인트나 엑셀 같은 프로그램, 또는 하둡과 플럼과 같은 분석 환경이 도구와 기법에 해당
    템플릿과 산출물(Templates & Outputs) 템플릿 = 양식, 문서, 프로그램(참고용)
    산출물 = 작업 종료 이후 작성되는 문서 또는 프로그램

     

    기업의 합리적 의사결정 방해요소
    1. 고정 관념
    2. 편향된 생각
    3. 프레이밍 효과: "물이 반밖에 없군", "물이 반이나 있군"

     

    분석 방법론의 생성 과정

     

    분석 방법론이 적용되는 업무 특성에 따른 모델★★

    폭포수 모델

    • 특징: 순차적인 단계로 구성된 하향식 접근 방법. 각 단계가 완료되어야 다음 단계로 진행 가능
    • 장점: 명확한 구조와 문서화 구축으로 인해 위험이 낮고, 이미 경험한 프로젝트에 적합
    • 단점: 문제나 개선사항이 발견될 경우 이전 단계로 돌아가야 한다. 요구사항 변경에 유연하지 않다.

    프로토타입 모델

    • 특징: 사용자 중심의 개발 방법. 고객의 요구를 이해하지 못할 경우 프로토타입 모델을 적용. 일부분을 먼저 개발하고, 사용자의 요구를 분석, 정당성 점검, 성능 평가
    • 장점: 피드백을 통한 개선 용이
    • 단점: 과도한 요구사항 변경이 발생할 수 있으며, 완제품으로 오인

    나선형 모델

    • 특징: 반복적인 개발과 위험 분석을 통해 점진적으로 시스템 개발(위험 요소를 사전에 제거)
    • 장점: 처음 시도하거나, 위험이 높은 프로젝트에 적합. 위험 관리 가능
    • 단점: 관리 체계가 잘 갖춰지지 않으면 복잡도 상승

    계층적 프로세스 모델

    • 특징: 최상의 계층인 여러 개의 '단계'로 구성되어 있고, 하나의 단계는 여러 개의 '태스크'로 구성되고, 하나의 태스크는 여러 개의 '스텝'으로 구성되어 있다. 스텝은 WBS(Work Breakdown Structure)의 워크패키지에 해당되며, 입력 - 처리 및 도구 - 출력으로 구성된 단위 프로세스이다.
    • 장점: 체계적인 절차와 품질 관리를 통해 프로젝트를 진행
    • 단점: 복잡한 프로젝트에서는 관리가 어려울 수 있다. 각 단계의 피드백 과정이 필요하다.
      빅데이터 분석의 계층적 프로세스
    단계(Phase) 프로세스 그룹을 통해 완성된 단계별 산출물 생성, 버전 관리 등을 통한 통제 필요
    태스크(Task) 단계를 구성하는 단위 활동, 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있음
    스텝(Step) WBS의 워크패키지에 해당하고, 입력 자료, 처리 및 도구, 출력 자료로 구성된 단위 프로세스

     

    KDD 분석 방법론★

    • 정의: KDD(Knowledge Discovery in Database)는 데이터로부터 통계적 패턴이나 지식을 찾기 위해 체계적으로 정리한 데이터 마이닝 프로세스이다.
    • 응용: 기계학습, 인공지능, 패턴인식, 시각화, 데이터 마이닝 등

    KDD 분석 방법론 프로세스

     

    [1단계]
    데이터셋 선택
    - 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 필수
    - 분석에 필요한 데이터를 선택 -> 타깃 데이터(target data) 생성
    [2단계]
    데이터 전처리
    - 잡음, 이상치, 결측치를 파악하여 제거하거나 의미 있는 데이터로 재가공
    - 추가로 요구되는 데이터셋이 있다면 데이터 선택 프로세스를 다시 실행
    [3단계]
    데이터 변환
    - 변수를 생성/선택하고 데이터의 차원을 축소
    - 학습용 데이터(training data set)와 검증용 데이터(test data set)를 분리
    [4단계]
    데이터 마이닝
    - 학습용 데이터를 이용하여 분석 목적에 맞는 데이터 마이닝 기법을 선택하고 적절한 알고리즘을 적용
    - 필요에 따라 전처리와 변환 프로세스도 추가
    [5단계]
    해석과 평가
    - 분석 목적과의 일치성을 확인하고 평가
    - 발견한 지식을 업무에 활용하기 위한 방안 마련

     

    CRISP-DM 분석 방법론★★

    • Cross Industry Standard Process for Data Mining은 1999년 유럽연합에서 발표된 계층적 프로세스 모델이다.
    • 4개의 계층: 단계 - 일반화 태스크 - 세분화 태스크 - 프로세스 실행
    • 프로세스: 업무 이해 - 데이터 이해 - 데이터 준비 - 모델링 - 평가 - 전개
    1단계. 업무 이해 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립
    2단계. 데이터 이해 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
    3단계. 데이터 준비 분석용 데이터셋 선택, 데이터 정제, 분석용 데이터셋 편성, 데이터 통합, 데이터 포매팅
    4단계. 모델링 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가
    5단계. 평가 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가
    6단계. 전개 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰

    빅데이터 분석 방법론

    • 5단계: 분석 기획 - 데이터 준비 - 데이터 분석 - 시스템 구현 - 평가 및 전개

    5단계 빅데이터 분석 방법론 플로우

    단계(Phase) 태스크(Task) 스텝(Step)
    [1단계]
    분석 기획
    비즈니스 이해 및 범위 설정 비즈니스 이해
    프로젝트 범위 설정
    프로젝트 정의 및 계획 수립 데이터 분석 프로젝트 정의
    프로젝트 수행 계획 수립
    프로젝트 위험 계획 수립 데이터 분석 위험 식별
    위험 대응 계획 수립
    [2단계]
    데이터 준비
    필요 데이터 정의 데이터 정의
    데이터 획득 방안 수립
    데이터 스토어 설계 정형 데이터 스토어 설계
    비정형 데이터 스토어 설계
    데이터 수집 및 정합성 검정 데이터 수집 및 저장
    데이터 정합성 검정
    [3단계]
    데이터 분석
    분석용 데이터 준비 비즈니스 룰 확인
    분석용 데이터셋 준비
    텍스트 분석 텍스트 데이터 확인 및 추출
    텍스트 데이터 분석
    탐색적 분석 탐색적 데이터 분석
    데이터 시각화
    모델링 데이터 분할
    데이터 모델링
    모델 적용 및 운영 방안
    모델 평가 및 검증 모델 평가
    모델 검증
    [4단계]
    시스템 구현
    설계 및 구현 시스템 분석 및 설계
    시스템 구현
    시스템 테스트 및 운영 시스템 테스트
    시스템 운영 계획
    [5단계]
    평가 및 전개
    모델 발전 계획 모델 발전 계획
    프로젝트 평가 및 보고 프로젝트 성과 평가
    프로젝트 종료

     

    위험 대응 계획 수립
    4가지 방법 대응 : 회피, 전이, 완화, 수용