본문 바로가기

[자격증]/ADsP 데이터분석 준전문가10

[14day] 데이터 마이닝 데이터 마이닝이란데이터 마이닝(Data Mining)은 방대한 양의 데이터 속에서 숨겨진 규칙, 패턴 등을 찾아내어 예측하거나 의사결정에 활용하는 것을 목적으로 한다. 인공지능이 발달함에 따라 컴퓨터가 스스로 학습하는 알고리즘인 머신러닝(Machine Learning)을 구현하기 위한 바탕이 된다."통계분석은 표본을 통해 의미 있는 자료를 추출하고, 이를 기반으로 의사결정, 요약, 연관성 파악, 예측 등의 결과로 이어지도록 하는 일련의 과정을 말한다. 통계분석은 [수집->정제->추정->검정]의 과정을 통해 이루어진다." 통계학은 표본이 있어야 한다는 것과 그 표본을 통해 모집단의 어떤 특성을 추정하고 검정한다는 것이 중요하다. 추정이라는 개념에는 바로 '가설과 검정'이라는 개념도 포함되어 있다.그렇다면 .. 2024. 10. 22.
[9day] 통계의 이해 통계와 표본 조사통계통계학: 불확실한 상황에서 효과적인 의사결정을 할 수 있도록 수치자료를 수집하고, 정리하고, 표현하고, 분석하는 이론과 방법을 연구하는 학문통계분석: 특정집단을 대상으로 자료를 수집하여 대상집단에 대한 정보를 구하고, 적절한 통계분석 방법을 이용하여 의사결정(통계적 추론)을 하는 과정표본조사★★전수조사가 불가능할 때 특정 집단을 대표할 수 있는 표본집단을 선별하여 표본조사를 실시반드시 특정 집단을 대표할 수 있는 집단이어야 한다. 이를 표본의 대표성이라 한다.표본의 대표성을 신뢰할 수 있어야 한다.표본추출 방법★★단순 랜덤 추출법N개의 모집단에서 n개의 데이터를 무작위로 추출하는 방법계통 추출법모집단의 원소에 차례대로 번호를 부여한 뒤, 일정한 간격을 두고 데이터를 추출하는 방법N개의.. 2024. 10. 18.
[8day] 데이터 마트 & 데이터 탐색 데이터 마트의 이해데이터 마트분석 '목적'에 맞춰 데이터를 수집, 변형하는 과정이 필요특정 사용자가 관심을 갖는 데이터들을 주제별, 부서별로 추출하여 모은 비교적 작은 규모의 데이터 웨어하우스데이터 마트 개발: 목적별, 주제별, 부서별로 데이터를 수집하고 변형하여 한 곳에 모으는 작업R에서 제공하는 reshape, sqldf, plyr 등의 다양한 패키지 활용 가능 데이터 전처리전처리(preprocessing)하는 과정이 꼭 필요하다.정제(cleansing)하는 과정과 분석 변수를 처리하는 과정이 포함정제 과정: 크게 결측값과 이상값을 처리하는 내용분석 변수 처리 과정: 변수 선택, 차원 축소, 파생변수 생성, 변수 변환, 클래스 불균형(불균형 데이터 처리)전처리정제 작업 외에도 변수처리 작업이 포함된다.. 2024. 10. 18.
[6day] 분석 거버넌스 체계 수립 거버넌스 체계 개요거버넌스(Governance)는 '통치'라는 뜻으로, 기업에서 의사결정을 위한 데이터의 분석과 활용을 위한 체계적인 관리를 의미어떤 목적으로 어떤 분석으로 수행하고, 분석을 위해 어떻게 데이터를 활용할 것인지 결정하고, 데이터 분석을 기업의 문화로 정착시켜 데이터 분석 업무를 지속적으로 고도화하기 위해 데이터 관리 체계를 수립하는 것분석 거버넌스 체계 구성 요소★COA(Center of Analytics)조직(Organization): 분석 기획 및 관리를 수행과제 기획 및 운영 프로세스(Process)분석 관련 시스템(System)데이터(Data)분석 관련 교육 및 마인드 육성 체계(Human Resource)데이터 분석 성숙도 모델 및 수준 진단분석 준비도★★★6가지 분석 구성 요소.. 2024. 10. 16.
[5day] 마스터플랜 수립 분석 마스터플랜마스터플랜 수립 단계에서는 분석 과제의 우선순위를 결정하고 기업의 상황을 고려하여 분석 과제의 적용 범위 및 방식을 결정하여 분석 구현 로드맵을 수립한다분석 마스터플랜 수립 프레임워크★★★첫 단추: 발굴한 분석 과제의 우선순위를 정한다.우선순위 고려: 전략적 중요도, 비즈니스 성과 및 ROI(Return on Investment, 투자수익률), 분석 과제의 실행 용이성을 기준으로 고려해 분석 과제의 우선순위를 설정분석 과제 적용 범위 및 방식 설정: 업무에 내재화 적용 수준, 분석 데이터 적용 범위(내부 데이터 & 외부 데이터), 기술 적용 수준로드맵 수립: 우선순위와 적용 범위 및 방식으로 종합적으로 고려하여 분석 구현의 로드맵 수립 일반적인 IT 프로젝트 우선순위 평가도출된 과제에 대한.. 2024. 10. 15.
[4day] 분석 프로젝트 관리 방안 분석 프로젝트의 특성분석가는 분석의 정확도를 높이는 것뿐만 아니라 원하는 결과를 사용자가 원활하게 활용할 수 있도록 고려분석가는 데이터의 영역과 비즈니스 영역의 중간에서 조율을 수행하는 조정자의 역할을 수행도출된 결과의 재해석을 통한 지속적인 모델 정교화 작업 반복하여 모델 개선, 적절한 관리 방안 수립 필요분석 과제를 관리할 때 고려해야 할 5가지 속성★데이터의 양: 양이 방대할 경우 하둡이나 클라우드 같은 분석환경을 활용하는 것이 유리데이터 복잡도: 텍스트, 오디오, 비디오 등 다양한 비정형 데이터를 분석할 때 초기 데이터의 확보와 통합뿐 아니라 해당 데이터에 잘 적용될 수 있는 모델을 고려분석의 속도: 실시간 - 일주일 - 한 달 등 프로젝트에 따라 필요 기한이 짧기도 하고 길기도 하다. 그에 맞춰.. 2024. 10. 15.
[4day] 분석 과제 발굴 분석 과제 '발굴'의 개념과 '탐색' 방법분석 과제 발굴해결해야 할 다양한 기업의 문제를 '데이터 분석 문제'로 변환하는 것을 포함하는 개념이해관계자들이 이해할 수 있게 프로젝트 수행 목적의 과제 정의서 형태로 도출분석 과제 탐색 방법★★★하향식 접근법: Top-Down 수행 방법으로, 각 과정이 체계적으로 단계화되어 문제를 해결하는 방식상향식 접근법: 문제가 무엇인지 사전에 정의하는 것이 어렵기 때문에 다양한 데이터의 조합 속에서 인사이트를 찾아내는 Bottom-Up 방식분석 대상을 알고 있다면 하향식 접근법, 모른다면 상향식 접근법을 사용현업에서는 혼용해서 사용하는 경우가 많다 분석 과제 발굴 방법론 개념도Start : 분석 대상이 무엇인지 알고 있는가? YES - [하향식 접근법]가. 문제 탐색 단.. 2024. 10. 14.
[3day] 분석 기획과 분석 방법론 ≣ 목차 분석 기획정의어떠한 목표(What)를 달성하기 위하여 어떠한 데이터를 가지고 어떠한 방식(How)으로 수행할지에 대한 일련의 계획을 수립하는 사전작업특징수학/통계학적 지식, 분석 도구인 데이터 및 프로그래밍 기술, 해당 비즈니스에 대한 이해와 전문성에 대한 역량과 시각 등이 요구4가지 분석 주제★★★ 최적화(Optimization): 분석 대상 known & 분석 방법 Known솔루션(Solution): 분석 대상 Known & 분석 방법 Unknown발견(Discovery): 분석 대상 UnKnown & 분석 방법 UnKnown통찰(Insight): 분석 대상 UnKnown & 분석 방법 Known목표 시점별 분석 기획★★과제 중심적인 접근 방식 : 빠르게 해결해야 하는 경우, 빠른 수행과 문.. 2024. 10. 13.
[2day] 데이터의 가치와 미래 ≣ 목차 빅데이터의 가치와 영향빅데이터의 가치인사이트 발굴빅데이터 자체로는 의미가 없는 일일 수도 있다. 중요한 것은 인사이트를 가치 있게 만드는 과정 그 자체.빅데이터 가치 산정의 어려움데이터 활용 방식빅데이터가 일반화되면서 특정 데이터를 누가, 언제, 어떻게, 어디서 활용하는지 알 수 없게 되었다. 그래서 가치 산정이 어렵다가치 창출 방식기존에 없던 새로운 가치를 창출함에 따라 그 가치를 산정하기 어렵다분석 기술의 발전오늘의 가치 없는 데이터가 내일은 가치 있는 데이터가 될 수도 있기 때문에 가치 산정은 어렵다 빅데이터가 가치를 만드는 5가지 방식투명성 제고로 연구개발 및 관리 효율성 제고시뮬레이션을 통한 수요 포착 및 주요 변수 탐색으로 경쟁력 강화고객 세분화 및 맞춤 서비스 제공알고리즘을 활용한 .. 2024. 10. 12.
[1day] 데이터의 이해 출제 내용1. 암묵지와 형식지암묵지학습과 체험을 통해 개인에게 습득되어 있지만, 겉으로 드러나지 않는 상태의 지식형식지암묵지가 문서나 매뉴얼처럼 외부로 표출돼 여러 사람이 공유할 수 있는 지식(교과서, 신문, 비디오 등)상호작용 : 공통화(암묵지) -> 표출화(형식지) -> 연결화(형식지) -> 내면화(암묵지)2. DIKW 피라미드Date(데이터) : 개별 데이터 자체는 중요하지 않다. 객관적인 사실을 말한다.Information(정보) : 가공, 처리된 데이터로 '의미'가 도출된 것. 유용하지 않을 수 있다.Knowledge(지식) : 다양한 정보를 '구조화'하여 '분류'하고 개인적인 '경험'을 결합해 내재화Wisdom(지혜) : 지식의 축적과 '아이디어'가 결합된 창의적 산물3. 데이터 단위1 바이트.. 2024. 10. 11.