≣ 목차
분석 기획
정의
- 어떠한 목표(What)를 달성하기 위하여 어떠한 데이터를 가지고 어떠한 방식(How)으로 수행할지에 대한 일련의 계획을 수립하는 사전작업
특징
- 수학/통계학적 지식, 분석 도구인 데이터 및 프로그래밍 기술, 해당 비즈니스에 대한 이해와 전문성에 대한 역량과 시각 등이 요구
4가지 분석 주제★★★
- 최적화(Optimization): 분석 대상 known & 분석 방법 Known
- 솔루션(Solution): 분석 대상 Known & 분석 방법 Unknown
- 발견(Discovery): 분석 대상 UnKnown & 분석 방법 UnKnown
- 통찰(Insight): 분석 대상 UnKnown & 분석 방법 Known
목표 시점별 분석 기획★★
- 과제 중심적인 접근 방식 : 빠르게 해결해야 하는 경우, 빠른 수행과 문제 해결이 목정
- 장기적인 마스터플랜 방식: 지속적인 분석 내재화를 위한 경우, 정확도와 무엇이 문제인가에 대한 문제 정의가 목적
당면한 분석 주제 해결(과제 단위) | 지속적 분석 문화 내재화(마스터플랜 단위) | |
목적 | 빠르게 해결하는 것이 목적 | 지속적으로 해결하는 것이 목적 |
1차 목표 | Speed & Test | Accuracy & Deploy |
과제 유형 | Quick & Win | Long Term View |
접근 방식 | Problem Solving | Problem Definition |
분석 기획 시 고려사항 ★★★
- 가용 데이터 고려
- 분석의 기본이 되는 데이터가 확보될 수 있는지에 대한 고려 필요
- 데이터 유형에 대한 분석이 선행적으로 이뤄져야 한다
- 적절한 활용 방안과 유스케이스의 탐색
- "바퀴를 재발명하지 마라"라는 격언처럼 기존에 잘 구현되어 활용되는 유사 시나리오 및 솔루션을 최대한 활용
- 과거의 유사한 분석 사례가 있다면 그 시나리오를 최대한 활용하여 과거의 실패를 반복하지 않는다
- 장애 요소에 대한 사전 계획 수립
- 발생 가능한 장애요소에 대한 사전 계획 수립 필요
분석 방법론의 필요성
분석 방법론이란?
- 대규모 조직이 분석 프로젝트를 수행할 때는 구성원 간의 업무상 통일을 위한 철저한 조직 관리와 더불어 성공적인 프로젝트 수행을 위한 방법론이 필요하다
- 방법론이란 주어진 과제를 해결하기 위해 조직이 어떠한 절차로 작업을 수행해 나갈 것인지 일련의 절차를 정의한 것
필요성
- 개인의 역량 혹은 우연한 성공에 기인해서는 안 된다. 일정한 수준의 품질을 갖춘 산출물과 프로젝트의 성공 가능성을 확보하고 제시할 수 있어야 한다.
- 방법론 구성 요소의 이해★
상세한 절차(Prodedure) | 작업을 수행하기 위한 절차를 의미한다 |
방법(Methods) | 해당 절차를 수행하기 위한 방법으로, 전문가 자문을 구하거나 고객의 요구사항 파악을 위한 대면조사 등 |
도구와 기법(Tools & Techniques) | R이나 파이썬 같은 분석 수행 언어, 파워포인트나 엑셀 같은 프로그램, 또는 하둡과 플럼과 같은 분석 환경이 도구와 기법에 해당 |
템플릿과 산출물(Templates & Outputs) | 템플릿 = 양식, 문서, 프로그램(참고용) 산출물 = 작업 종료 이후 작성되는 문서 또는 프로그램 |
기업의 합리적 의사결정 방해요소★★
1. 고정 관념
2. 편향된 생각
3. 프레이밍 효과: "물이 반밖에 없군", "물이 반이나 있군"
분석 방법론의 생성 과정
분석 방법론이 적용되는 업무 특성에 따른 모델★★
폭포수 모델
- 특징: 순차적인 단계로 구성된 하향식 접근 방법. 각 단계가 완료되어야 다음 단계로 진행 가능
- 장점: 명확한 구조와 문서화 구축으로 인해 위험이 낮고, 이미 경험한 프로젝트에 적합
- 단점: 문제나 개선사항이 발견될 경우 이전 단계로 돌아가야 한다. 요구사항 변경에 유연하지 않다.
프로토타입 모델
- 특징: 사용자 중심의 개발 방법. 고객의 요구를 이해하지 못할 경우 프로토타입 모델을 적용. 일부분을 먼저 개발하고, 사용자의 요구를 분석, 정당성 점검, 성능 평가
- 장점: 피드백을 통한 개선 용이
- 단점: 과도한 요구사항 변경이 발생할 수 있으며, 완제품으로 오인
나선형 모델
- 특징: 반복적인 개발과 위험 분석을 통해 점진적으로 시스템 개발(위험 요소를 사전에 제거)
- 장점: 처음 시도하거나, 위험이 높은 프로젝트에 적합. 위험 관리 가능
- 단점: 관리 체계가 잘 갖춰지지 않으면 복잡도 상승
계층적 프로세스 모델
- 특징: 최상의 계층인 여러 개의 '단계'로 구성되어 있고, 하나의 단계는 여러 개의 '태스크'로 구성되고, 하나의 태스크는 여러 개의 '스텝'으로 구성되어 있다. 스텝은 WBS(Work Breakdown Structure)의 워크패키지에 해당되며, 입력 - 처리 및 도구 - 출력으로 구성된 단위 프로세스이다.
- 장점: 체계적인 절차와 품질 관리를 통해 프로젝트를 진행
- 단점: 복잡한 프로젝트에서는 관리가 어려울 수 있다. 각 단계의 피드백 과정이 필요하다.
빅데이터 분석의 계층적 프로세스 | |
단계(Phase) | 프로세스 그룹을 통해 완성된 단계별 산출물 생성, 버전 관리 등을 통한 통제 필요 |
태스크(Task) | 단계를 구성하는 단위 활동, 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있음 |
스텝(Step) | WBS의 워크패키지에 해당하고, 입력 자료, 처리 및 도구, 출력 자료로 구성된 단위 프로세스 |
KDD 분석 방법론★
- 정의: KDD(Knowledge Discovery in Database)는 데이터로부터 통계적 패턴이나 지식을 찾기 위해 체계적으로 정리한 데이터 마이닝 프로세스이다.
- 응용: 기계학습, 인공지능, 패턴인식, 시각화, 데이터 마이닝 등
KDD 분석 방법론 프로세스
[1단계] 데이터셋 선택 |
- 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 필수 - 분석에 필요한 데이터를 선택 -> 타깃 데이터(target data) 생성 |
[2단계] 데이터 전처리 |
- 잡음, 이상치, 결측치를 파악하여 제거하거나 의미 있는 데이터로 재가공 - 추가로 요구되는 데이터셋이 있다면 데이터 선택 프로세스를 다시 실행 |
[3단계] 데이터 변환 |
- 변수를 생성/선택하고 데이터의 차원을 축소 - 학습용 데이터(training data set)와 검증용 데이터(test data set)를 분리 |
[4단계] 데이터 마이닝 |
- 학습용 데이터를 이용하여 분석 목적에 맞는 데이터 마이닝 기법을 선택하고 적절한 알고리즘을 적용 - 필요에 따라 전처리와 변환 프로세스도 추가 |
[5단계] 해석과 평가 |
- 분석 목적과의 일치성을 확인하고 평가 - 발견한 지식을 업무에 활용하기 위한 방안 마련 |
CRISP-DM 분석 방법론★★
- Cross Industry Standard Process for Data Mining은 1999년 유럽연합에서 발표된 계층적 프로세스 모델이다.
- 4개의 계층: 단계 - 일반화 태스크 - 세분화 태스크 - 프로세스 실행
- 프로세스: 업무 이해 - 데이터 이해 - 데이터 준비 - 모델링 - 평가 - 전개
1단계. 업무 이해 | 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립 |
2단계. 데이터 이해 | 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인 |
3단계. 데이터 준비 | 분석용 데이터셋 선택, 데이터 정제, 분석용 데이터셋 편성, 데이터 통합, 데이터 포매팅 |
4단계. 모델링 | 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가 |
5단계. 평가 | 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가 |
6단계. 전개 | 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰 |
빅데이터 분석 방법론
- 5단계: 분석 기획 - 데이터 준비 - 데이터 분석 - 시스템 구현 - 평가 및 전개
5단계 빅데이터 분석 방법론 플로우
단계(Phase) | 태스크(Task) | 스텝(Step) |
[1단계] 분석 기획 |
비즈니스 이해 및 범위 설정 | 비즈니스 이해 |
프로젝트 범위 설정 | ||
프로젝트 정의 및 계획 수립 | 데이터 분석 프로젝트 정의 | |
프로젝트 수행 계획 수립 | ||
프로젝트 위험 계획 수립 | 데이터 분석 위험 식별 | |
위험 대응 계획 수립 | ||
[2단계] 데이터 준비 |
필요 데이터 정의 | 데이터 정의 |
데이터 획득 방안 수립 | ||
데이터 스토어 설계 | 정형 데이터 스토어 설계 | |
비정형 데이터 스토어 설계 | ||
데이터 수집 및 정합성 검정 | 데이터 수집 및 저장 | |
데이터 정합성 검정 | ||
[3단계] 데이터 분석 |
분석용 데이터 준비 | 비즈니스 룰 확인 |
분석용 데이터셋 준비 | ||
텍스트 분석 | 텍스트 데이터 확인 및 추출 | |
텍스트 데이터 분석 | ||
탐색적 분석 | 탐색적 데이터 분석 | |
데이터 시각화 | ||
모델링 | 데이터 분할 | |
데이터 모델링 | ||
모델 적용 및 운영 방안 | ||
모델 평가 및 검증 | 모델 평가 | |
모델 검증 | ||
[4단계] 시스템 구현 |
설계 및 구현 | 시스템 분석 및 설계 |
시스템 구현 | ||
시스템 테스트 및 운영 | 시스템 테스트 | |
시스템 운영 계획 | ||
[5단계] 평가 및 전개 |
모델 발전 계획 | 모델 발전 계획 |
프로젝트 평가 및 보고 | 프로젝트 성과 평가 | |
프로젝트 종료 |
위험 대응 계획 수립
4가지 방법 대응 : 회피, 전이, 완화, 수용
'[자격증] > ADsP 데이터분석 준전문가' 카테고리의 다른 글
[5day] 마스터플랜 수립 (0) | 2024.10.15 |
---|---|
[4day] 분석 프로젝트 관리 방안 (0) | 2024.10.15 |
[4day] 분석 과제 발굴 (0) | 2024.10.14 |
[2day] 데이터의 가치와 미래 (0) | 2024.10.12 |
[1day] 데이터의 이해 (0) | 2024.10.11 |