본문 바로가기
[자격증]/ADsP 데이터분석 준전문가

[2day] 데이터의 가치와 미래

by 에디터 윤슬 2024. 10. 12.

목차

     

    빅데이터의 가치와 영향

    빅데이터의 가치

    • 인사이트 발굴
    • 빅데이터 자체로는 의미가 없는 일일 수도 있다. 중요한 것은 인사이트를 가치 있게 만드는 과정 그 자체.

    빅데이터 가치 산정의 어려움

    데이터 활용 방식 빅데이터가 일반화되면서 특정 데이터를 누가, 언제, 어떻게, 어디서 활용하는지 알 수 없게 되었다. 그래서 가치 산정이 어렵다
    가치 창출 방식 기존에 없던 새로운 가치를 창출함에 따라 그 가치를 산정하기 어렵다
    분석 기술의 발전 오늘의 가치 없는 데이터가 내일은 가치 있는 데이터가 될 수도 있기 때문에 가치 산정은 어렵다

     

    빅데이터가 가치를 만드는 5가지 방식

    • 투명성 제고로 연구개발 및 관리 효율성 제고
    • 시뮬레이션을 통한 수요 포착 및 주요 변수 탐색으로 경쟁력 강화
    • 고객 세분화 및 맞춤 서비스 제공
    • 알고리즘을 활용한 의사결정 보조 혹은 대체
    • 비즈니스 모델과 제품, 서비스의 혁신 등
    빅데이터 경영혁신의 4단계
    1. 생산성 향상  --> 2. 발견에 의한 문제 해결 --> 3. 의사결정 향상 --> 4. 새로운 고객가치와 비즈니스 창출

     

     

    빅데이터와 비즈니스 모델

    미래의 빅데이터 활용에 필요한 3요소

    요소 내용
    1. 데이터 모든 것의 데이터화
    2. 기술 진화하는 알고리즘, 인공지능
    3. 인력 데이터 사이언티스트, 알고리즈미스트

     

    7가지 빅데이터 활용 기본 테크닉★★★

    1. 연관 규칙 학습(Association rule learning)
      • 변인(컬럼) 간에 주목할 만한 상관 관계가 있는지 찾아내는 방법
      • 연관분석 혹은 장바구니 분석으로도 불린다.
      • 고객이 구매한 물품을 분석하여 품목 사이에 어떠한 규칙이 있는지 찾아내는 분석 기법
      • EX) A를 구매한 사람이 B를 더 많이 사는가?  // 이것을 구매한 사람들이 많이 구매한 물품은?
    2. 유형분석(Classification tree analysis)
      • 새로운 사건이 속할 범주를 찾아내는 방법
      • 이 사용자가 어떤 특성을 가진 집단에 속하는가? 와 같은 문제를 해결
      • Ex) 문서를 어떻게 분류할 것인가?  //  조직을 어떻게 여러 그룹으로 나눌 것인가?  //  온라인 수강생들의 특성을 반영하여 어떻게 분류할 것인가?
    3. 유전 알고리즘(Genetic Algorithms)
      • 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법이다.
      • '최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?'와 같은 문제를 해결할 때 사용
      • Ex) 최적화된 택배 차량 배치, 최고의 시청률을 내기 위한 방송 프로그램 배치  //  응급실에서 의사를 어떻게 배치하는 것이 효율적인가?  // 연비가 좋은 자동차를 개발하기 위해 원자재와 엔지니어링을 어떻게 결합하는 것이 좋을까?
    4. 기계학습 = 머신러닝(Machine learning)
      • 데이터로부터 규칙을 찾고 이러한 규칙을 활용해 '예측'하는 데 초점을 둔 방법
      • '기종 시청 기록을 바탕으로 시청자가 보유한 영화 중 어떤 영화를 가장 보고 싶어 할까?'와 같은 문제를 해결할 때 사용
      • Ex) 유튜브 및 넷플릭스의 미디어 추천 시스템  //  스팸메일 필터링  // 질병 진단 예측
    5. 회귀분석(Regression analysis)
      • 독립변수를 조작하면서 종속변수가 어떻게 변하는지를 보며 수치형으로 이루어진 두 변인의 관계를 파악하는 방법
      • '구매자의 나이(독립변수)가 구매 차량의 타입(종속변수)에 어떤 영향을 미치는가?'와 같은 문제를 해결
      • Ex) 사용자의 만족도가 충성도에 어떤 영향을 미치는가?  // 이웃들과 그 규모가 집값에 어떤 영향을 미치는가?  // 상품가격은 매출에 어떤 영향을 미치는가?
    6. 감정분석(Sentiment analysis)
      • 말하거나 글을 쓴 사람의 감정을 분석하는 방법
      • 비정형 데이터 마이닝의 대표적인 기법 중 하나로, 텍스트 파일로부터 단어를 추출하고 추출된 단어의 긍정, 부정을 선별하여 감정을 분석
      • '새로운 환불 정책에 대한 고객의 평가는 어떤가?' 와 같은 문제를 해결할 때 사용
      • Ex) 호텔에서 고객의 후기를 분석하여 고객의 니즈를 찾아낸다  // 제품의 사용기에 나타난 고객의 감정은 어떠한가?
    7. 소셜 네트워크 분석(SNA: Social Network Analysis)
      • 사회 관계망 분석으로도 불리며, 팔로워 혹은 팔로잉 관계를 분석하여 영향력이 있는 사람을 찾아내어 기업의 마케팅이나 범죄 수사에서 공법을 찾는 등 다양한 분야에서 활용
      • 고객 간 소셜 관계를 파악할 수 있다
      • EX) 도시계획 및 지리학 분야에서 SNA를 활용하여 도시공간분석에 이용 // 특정인과 다른 사람이 몇 촌 정도의 관계인가?
    소셜 네트워크 분석 요소
    * 연결 중심성(팔로워가 많은 정도를 나타내는 척도) : 하나의 점에 얼마나 많은 다른 점이 연결돼 있는지 나타내는 척도, 연결된 노드들의 수의 합으로 표현
    * 근접 중심성(연관 관계를 나타내는 척도) : 노드 사이의 거리를 기반으로 측정한 척도
    * 매개 중심성(계급 상위 포식자) : 네트워크 내에서 해당 노드가 어디에 위치하는지 파악하여 노드의 영향력을 측정
    * 아이겐벡터 중심성(얼마나 중심에 있는지, 가중치가 높은지 파악) : 네트워크 내의 노드와 다른 벡터의 중심성과 가중치를 활용하여 계산. 해당 노드와 연결된 다른 노드들이 네트워크 내에서 얼마나 중요한지 파악하는 지표

     

     

    빅데이터의 위기 요인과 통제 방안

    위기요인

    1. 사생활 침해
      • 개인의 사생활 침해를 넘어 사회, 경제적 위협으로 변형될 수 있음
      • 익명화 기술이 아직 충분하지 않으며, 정보가 오용될 때 위협의 크기는 막대함
      • Ex) SNS에 여행 게시글을 올린 사용자를 대상으로 한 빈집털이 발생
    2. 책임 원칙 훼손
      • 빅데티어 기반 분석과 예측 기술이 발전하면서 정확도가 증가한 만큼, 분석 대상이 되는 사람들이 예측 알고리즘의 희생양이 될 가능성도 높아졌다
      • 빅데이터 시스템에 의해 부당하게 피해 보는 상황을 최소화할 장치 마련이 필요하다
      • EX) 신용카드 발급 여부 판단에 있어 불이익 발생
    3. 데이터 오용
      • 데이터 과신 혹은 잘못된 지표의 사용으로 인한 잘못된 인사이트를 얻어 비즈니스에 적용할 경우 직접 손실이 발생
      • 과거 데이터를 과신하거나 오용할 경우 창조적인 제품을 개발하기 어렵다
      • EX) 포드 자동차 발명 vs 더 빠른 말  // 적군의 사망자 수로 전쟁의 승리를 예측하는 오류

    통제방안★★★

    1. 사생활 침해의 통제 방안 -> '동의'에서 '책임'으로
    2. 책인 원칙 훼손의 통제 방안 -> '행동' 결과 기반 책임 원칙 고수
    3. 알고리즘 접근 허용
    개인정보 비식별 기술★

    * 데이터 마스킹: 데이터의 기존 형식을 유지한 채 식별할 수 없는 임의의 값으로 대체한다
    * 가명 처리: 데이터의 값을 다른 값으로 대체
    * 총계 처리: 총합 혹은 평균으로 데이터를 보여준다
    * 데이터 값 삭제: 일부를 삭제한다
    * 데이터 범주화: 범주화하여 특정 값이 아닌 범위를 제공한다