≣ 목차
빅데이터의 가치와 영향
빅데이터의 가치
- 인사이트 발굴
- 빅데이터 자체로는 의미가 없는 일일 수도 있다. 중요한 것은 인사이트를 가치 있게 만드는 과정 그 자체.
빅데이터 가치 산정의 어려움
데이터 활용 방식 | 빅데이터가 일반화되면서 특정 데이터를 누가, 언제, 어떻게, 어디서 활용하는지 알 수 없게 되었다. 그래서 가치 산정이 어렵다 |
가치 창출 방식 | 기존에 없던 새로운 가치를 창출함에 따라 그 가치를 산정하기 어렵다 |
분석 기술의 발전 | 오늘의 가치 없는 데이터가 내일은 가치 있는 데이터가 될 수도 있기 때문에 가치 산정은 어렵다 |
빅데이터가 가치를 만드는 5가지 방식
- 투명성 제고로 연구개발 및 관리 효율성 제고
- 시뮬레이션을 통한 수요 포착 및 주요 변수 탐색으로 경쟁력 강화
- 고객 세분화 및 맞춤 서비스 제공
- 알고리즘을 활용한 의사결정 보조 혹은 대체
- 비즈니스 모델과 제품, 서비스의 혁신 등
빅데이터 경영혁신의 4단계
1. 생산성 향상 --> 2. 발견에 의한 문제 해결 --> 3. 의사결정 향상 --> 4. 새로운 고객가치와 비즈니스 창출
빅데이터와 비즈니스 모델
미래의 빅데이터 활용에 필요한 3요소
요소 | 내용 |
1. 데이터 | 모든 것의 데이터화 |
2. 기술 | 진화하는 알고리즘, 인공지능 |
3. 인력 | 데이터 사이언티스트, 알고리즈미스트 |
7가지 빅데이터 활용 기본 테크닉★★★
- 연관 규칙 학습(Association rule learning)
- 변인(컬럼) 간에 주목할 만한 상관 관계가 있는지 찾아내는 방법
- 연관분석 혹은 장바구니 분석으로도 불린다.
- 고객이 구매한 물품을 분석하여 품목 사이에 어떠한 규칙이 있는지 찾아내는 분석 기법
- EX) A를 구매한 사람이 B를 더 많이 사는가? // 이것을 구매한 사람들이 많이 구매한 물품은?
- 유형분석(Classification tree analysis)
- 새로운 사건이 속할 범주를 찾아내는 방법
- 이 사용자가 어떤 특성을 가진 집단에 속하는가? 와 같은 문제를 해결
- Ex) 문서를 어떻게 분류할 것인가? // 조직을 어떻게 여러 그룹으로 나눌 것인가? // 온라인 수강생들의 특성을 반영하여 어떻게 분류할 것인가?
- 유전 알고리즘(Genetic Algorithms)
- 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법이다.
- '최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?'와 같은 문제를 해결할 때 사용
- Ex) 최적화된 택배 차량 배치, 최고의 시청률을 내기 위한 방송 프로그램 배치 // 응급실에서 의사를 어떻게 배치하는 것이 효율적인가? // 연비가 좋은 자동차를 개발하기 위해 원자재와 엔지니어링을 어떻게 결합하는 것이 좋을까?
- 기계학습 = 머신러닝(Machine learning)
- 데이터로부터 규칙을 찾고 이러한 규칙을 활용해 '예측'하는 데 초점을 둔 방법
- '기종 시청 기록을 바탕으로 시청자가 보유한 영화 중 어떤 영화를 가장 보고 싶어 할까?'와 같은 문제를 해결할 때 사용
- Ex) 유튜브 및 넷플릭스의 미디어 추천 시스템 // 스팸메일 필터링 // 질병 진단 예측
- 회귀분석(Regression analysis)
- 독립변수를 조작하면서 종속변수가 어떻게 변하는지를 보며 수치형으로 이루어진 두 변인의 관계를 파악하는 방법
- '구매자의 나이(독립변수)가 구매 차량의 타입(종속변수)에 어떤 영향을 미치는가?'와 같은 문제를 해결
- Ex) 사용자의 만족도가 충성도에 어떤 영향을 미치는가? // 이웃들과 그 규모가 집값에 어떤 영향을 미치는가? // 상품가격은 매출에 어떤 영향을 미치는가?
- 감정분석(Sentiment analysis)
- 말하거나 글을 쓴 사람의 감정을 분석하는 방법
- 비정형 데이터 마이닝의 대표적인 기법 중 하나로, 텍스트 파일로부터 단어를 추출하고 추출된 단어의 긍정, 부정을 선별하여 감정을 분석
- '새로운 환불 정책에 대한 고객의 평가는 어떤가?' 와 같은 문제를 해결할 때 사용
- Ex) 호텔에서 고객의 후기를 분석하여 고객의 니즈를 찾아낸다 // 제품의 사용기에 나타난 고객의 감정은 어떠한가?
- 소셜 네트워크 분석(SNA: Social Network Analysis)
- 사회 관계망 분석으로도 불리며, 팔로워 혹은 팔로잉 관계를 분석하여 영향력이 있는 사람을 찾아내어 기업의 마케팅이나 범죄 수사에서 공법을 찾는 등 다양한 분야에서 활용
- 고객 간 소셜 관계를 파악할 수 있다
- EX) 도시계획 및 지리학 분야에서 SNA를 활용하여 도시공간분석에 이용 // 특정인과 다른 사람이 몇 촌 정도의 관계인가?
소셜 네트워크 분석 요소
* 연결 중심성(팔로워가 많은 정도를 나타내는 척도) : 하나의 점에 얼마나 많은 다른 점이 연결돼 있는지 나타내는 척도, 연결된 노드들의 수의 합으로 표현
* 근접 중심성(연관 관계를 나타내는 척도) : 노드 사이의 거리를 기반으로 측정한 척도
* 매개 중심성(계급 상위 포식자) : 네트워크 내에서 해당 노드가 어디에 위치하는지 파악하여 노드의 영향력을 측정
* 아이겐벡터 중심성(얼마나 중심에 있는지, 가중치가 높은지 파악) : 네트워크 내의 노드와 다른 벡터의 중심성과 가중치를 활용하여 계산. 해당 노드와 연결된 다른 노드들이 네트워크 내에서 얼마나 중요한지 파악하는 지표
빅데이터의 위기 요인과 통제 방안
위기요인★★★
- 사생활 침해
- 개인의 사생활 침해를 넘어 사회, 경제적 위협으로 변형될 수 있음
- 익명화 기술이 아직 충분하지 않으며, 정보가 오용될 때 위협의 크기는 막대함
- Ex) SNS에 여행 게시글을 올린 사용자를 대상으로 한 빈집털이 발생
- 책임 원칙 훼손
- 빅데티어 기반 분석과 예측 기술이 발전하면서 정확도가 증가한 만큼, 분석 대상이 되는 사람들이 예측 알고리즘의 희생양이 될 가능성도 높아졌다
- 빅데이터 시스템에 의해 부당하게 피해 보는 상황을 최소화할 장치 마련이 필요하다
- EX) 신용카드 발급 여부 판단에 있어 불이익 발생
- 데이터 오용
- 데이터 과신 혹은 잘못된 지표의 사용으로 인한 잘못된 인사이트를 얻어 비즈니스에 적용할 경우 직접 손실이 발생
- 과거 데이터를 과신하거나 오용할 경우 창조적인 제품을 개발하기 어렵다
- EX) 포드 자동차 발명 vs 더 빠른 말 // 적군의 사망자 수로 전쟁의 승리를 예측하는 오류
통제방안★★★
- 사생활 침해의 통제 방안 -> '동의'에서 '책임'으로
- 책인 원칙 훼손의 통제 방안 -> '행동' 결과 기반 책임 원칙 고수
- 알고리즘 접근 허용
개인정보 비식별 기술★
* 데이터 마스킹: 데이터의 기존 형식을 유지한 채 식별할 수 없는 임의의 값으로 대체한다
* 가명 처리: 데이터의 값을 다른 값으로 대체
* 총계 처리: 총합 혹은 평균으로 데이터를 보여준다
* 데이터 값 삭제: 일부를 삭제한다
* 데이터 범주화: 범주화하여 특정 값이 아닌 범위를 제공한다
'[자격증] > ADsP 데이터분석 준전문가' 카테고리의 다른 글
[5day] 마스터플랜 수립 (0) | 2024.10.15 |
---|---|
[4day] 분석 프로젝트 관리 방안 (0) | 2024.10.15 |
[4day] 분석 과제 발굴 (0) | 2024.10.14 |
[3day] 분석 기획과 분석 방법론 (0) | 2024.10.13 |
[1day] 데이터의 이해 (0) | 2024.10.11 |