(강의를 직접 한다는 마음으로 TIL 작성 시작)
목차
- 데이터 분석가는 어떤 일을 하는지 알아봅시다
- SQL 문제 해석
1. 데이터 분석가는 어떤 일을 하는지 알아봅시다
업무 내용 | 업무 상세 |
데이터 추출 | 타 팀으로부터 요청받은 내용을 기반으로 데이터를 추출하여 유관 부서에 공유합니다. |
데이터 가공 | SQL, Python을 통해 데이터를 추출한 뒤, 데이터를 전처리(이상치, 결측치 처리)하고 정합성을 검증합니다. 가설 검증, 군집분석, 모델생성, 회귀분석, 상관관계분석, 퍼널분석 등을 진행합니다. 머신러닝, 딥러닝을 통해 새로운 모델을 개발합니다. |
데이터 시각화 | 가공한 데이터를 시각화합니다. 툴: tableau, Quicksight, Looker Studio etc. |
인사이트 도출 | 분석보고서를 작성하여, 데이터를 통해 현 시점의 문제제기와 해결방안을 제시합니다. 타 팀에게 이를 공유하여, 비즈니스 전략 수립에 기여합니다. |
데이터 분석가는 숫자, 언어, 이미지, 음성, 영상 등의 데이터를 확인하여 비즈니스 전략 수립에 도움이 되는 중요한 역할을 맡는다. 추출 - 가공 - 시각화 - 인사이트 도출. 이 과정을 반복 숙달하며 데이터 분석가는 '내가 생각한 것을 검증하고, 이를 설득력 있게 전달'할 수 있게 된다. "A 프로젝트 대비 B 프로젝트의 매출이 N%p 상승했습니다. 그러니까 B 프로젝트로 진행하십쇼" 두루뭉술한 말보다 설득력 있는 말을 할 수 있는 역량은 타 분야 업무에서도 이점이 생긴다.
- 사업: 마케팅 및 광고예산을 설정하고 ROI, ROAS 등 주요 지표를 수치로 확인함으로써, 최소 투자로 최대 이익을 창출할 수 있는 전략수립에 기여합니다. 이벤트 형태, 카테고리 등 다양한 기준에서 마케팅 효율을 측정할 수 있습니다.
- 기획: 서비스 유입부터 잔존까지, 그 단계별로 유저의 이탈과 잔존을 비교할 수 있습니다. 고객 세그멘테이션을 통해, 서비스를 이용하는 유저를 직접 파악하고 맞춤전략을 수립할 수 있습니다.
최소 자격 요건은 데이터에 접근하는 가장 기본적인 '언어', SQL(SQL은 질문하는 언어이다)과 통계지식이 필요하다. 이외 여러 작업 툴(Python, tacleau 등)을 숙달하고 반복 작업을 통해 익숙해진다면 '추출 - 가공 - 시각화' 부분을 하는 '기술적' 데이터 분석가가 될 수 있다. '역량 있는' 데이터 분석가가 되기 위해서는 추가로, '인사이트 도출'을 하여 서비스, 제품 등을 개선하는 방향성을 제시하는 역량을 키워야 한다. 회사에서는 누가 빨리 SQL 문장을 작성하느냐로 성과를 판단하지 않는다. 결국 누가 회사에 많은 이익(돈)을 벌게 했느냐, 하나다.
2. SQL 문제 해석
물로, 그렇게 인정 받기까지 기본은 충실해야 한다. SQL 하나 능숙하게 다루지 못하는 데이터 분석가는 없다.
a. 업무에 필요한 문자 포맷이 다를 때, SQL로 가공하기(REPLACE, SUBSTRING, CONCAT)
- 경우 1: 데이터에 잘못된 값이 있다. 하나하나 수정할 수는 없고, SQL로 한번에 수정할 수 없을까?
- 경우 2: 주소 전체가 아닌, '서울' 두 단어만 필요하다. 문자를 변경할 수는 없을까?
- 경우 3: 최종 보고서에 '사업장 명칭'과 '지역'이 같이 적혀 있어야 한다. 같은 포맷으로 붙일 수 없을까?
*** 특정 문자를 다른 문자로 바꾸기(REPLACE)
- 함수명: replace
- 사용 방법: replace(바꿀 컬럼, 현재 값, 바꿀 값)
- 예시: 식당 이름의 'Blue Ribbon'을 'Pink Ribbon'으로 바꾸기
select restaurant_name "기존 식당 이름"
replace(restaurant_name, 'Blue', 'Pink') "변경 식당 이름"
from food_orders
where restaurant_name like '%Blue Ribbon%' - 말풀이: 'Blue'를 'Pink'로 변경할 거야. restaurant_name 컬럼에서 'Blue Ribbon' 이름을 가진 데이터 중에서 변경해 줘.
*** 원하는 문자만 남기기(SUBSTRING or SUBSTR)
- 함수명: substring(substr)
- 사용 방법: substr(조회할 컬럼, 시작 위치, 글자 수)
- 예시: 서울 음식점의 주소를 전체가 아닌 '시도'만 나오도록 수정하기
select addr "기존 주소"
substr(addr, 1, 2) "시도"
from food_orders
where addr like '서울%' - 말풀이: addr 컬럼에서 서울로 시작하는 행을 고르고, addr 기존 컬럼과 함께 '서울' 두 글자만 나오게 설정한 컬럼도 보여줘
*** 여러 컬럼의 문자를 합치기(CONCAT)
- 함수명: concat
- 사용 방법: concat(붙일 문자값 1, 붙일 문자값 2, 붙일 문자값 3.....)
- 가능 문자의 종류
- 컬럼, 한글, 영어, 숫자, 기타 특수문자
- 예시: 서울시에 있는 음식점은 '[서울] 음식점명' 이라고 수정
select restaurant_name "기존 식당 이름"
concat('[', substr(addr, 1, 2), ']', restaurant_name) "바뀐 이름"
from food_orders
where addr like '서울%' - 의문: substr 부분에 '서울'이라고 추가해도 문제될 사항이 있을까?
'내일배움캠프 > TIL' 카테고리의 다른 글
2024.10.07(월) 문자 인코딩의 개념(Dbeaver 설치 중 변경 필요 시) (0) | 2024.10.07 |
---|---|
2024.10.04(금) SQL로 피벗테이블 만들기 (0) | 2024.10.04 |
2024.10.04(금) 조회한 데이터가 상식적이지 않을 때 (0) | 2024.10.04 |
2024.10.02(수) [1주차] 데이터 직무 산업별 직무 이해 & SQL 이해 (0) | 2024.10.02 |
2024.09.30(월) Chapter 1. 온보딩 주차_첫 째날 (0) | 2024.09.30 |