본문 바로가기
[직무 이해]/칼럼

[데이터 시각화 101: ③데이터 속 거짓말 발견하기]를 읽고

by 에디터 윤슬 2024. 10. 22.
 

링크

https://yozm.wishket.com/magazine/detail/1821/

 

데이터 시각화 101: ③데이터 속 거짓말 발견하기 | 요즘IT

간혹 직관적으로 이해된 시각화가 부정확한 정보를 전달하기도 하고, 시각적으로 오해를 불러일으키기도 합니다. 그 때문에 우리는 이러한 문제점이 왜 일어나는지 이해하고, 데이터 시각화

yozm.wishket.com

 

요약

막대그래프를 주의

기준선이 '0'인지 확인

  • 왼쪽 그래프는 보수 성향의 폭스 뉴스 자료. 오바마 대통령이 최고세율 인하를 2013년 초에 만료되도록 계획하고 있다는 소식을 전하며, 왼쪽 그래프를 송출. 기준선을 34%로 만들었더니 많은 세금 상승이 있을 것으로 보인다. 하지만 실제 세금 증가는 4.6% 차이이다.

  • 문재인 정부는 600일의 국정 성과를 보여주기 위한 자료 중 하나로 '국공립 어린이집' 수의 연도별 증가를 표로 나타냈다. 기준선 값을 오른쪽 그래프처럼 추가했더니, 왼쪽보다 덜 극적으로 현황이 보인다. 왼쪽은 성과를 과장 혹은 극대화하여 디자인한 것을 알 수 있다. 
  • 이렇듯 막대그래프를 볼 때는 항상 기준선의 값이 '0'인지 확인하는 습관이 필요하다.
Y축 살펴보기

 

  • 막대그래프를 만들 때, 간혹 하나의 값이 다른 값들에 비해 상대적으로 크면 그 막대에 물결선 표시를 해서 높이를 축약하는 경우가 있다. 2개의 Y축이 존재하는 그래프인 셈.
  • 위와 같이 하나의 Y축을 기준으로 수정. 원본 그래프에서 지방 공항의 당기순이익 적자가 과장되어 표현된 것을 알 수 있다.

선 그래프는 스케일이 중요

두 개의 Y축을 멀리하자

 

누적값으로 눈속임하다

 

 

  • QUARTZ는 애플이 증권거래위원회에 제공한 분기별 리포트 자료를 바탕으로, 위와 같이 그래픽을 업데이트. 아이폰의 2013년 3분기 동안의 판매량은 실제 감소. 그런데도 누적 그래프를 이용하여 판매량이 지속해서 상승한 듯한 인상을 주고 있다.

파이 차트를 써야 할까?

전체의 합이 100%인지 확인

 

  • 코로나바이러스 관련해 가장 큰 걱정이 무엇인지 설문조사 결과를 보여주는 파이 차트
  • 전체 합이 100%를 넘는다. 이는 파이 차트로 쓰여서는 안 되는 데이터
  • 이런 경우에는 막대 차트를 이용하는 것이 더 적합
3D는 피하자

  • 애플은 19.5%임에도 21.2%보다 비중이 더 크게 보인다
  • 파이 차트를 3D로 만들어서 기울인 시각적 착각
  • 3D 자체에 의미가 있어서 사용하는 것이 아니라, 단순히 2D의 차트를 3D로 만드는 경우엔 시각적으로 값이 왜곡될 수 있는 위험

오해를 불러일으키는 지도

트럼프의 대선 승리 지도

 

 

  • 트럼프의 지도는 카운티(County)로 구분된 지역을 색으로 표시
  • 하지만 지역이 넓어도 인구수가 적은 곳이 많기 때문에 이는 적절한 시각화 방법이 아니다
  • 카림(Karim Douïeb)은 위와 같이 2016년 대선 결과를 투표수에 비례하는 점으로 표시
  • 이는 투표수에 따른 결과를 좀 더 정확하게 보여준다
맥락이 필요하다

 

  • 호주의 아티스트 앤서니(Anthony Hearsey)가 미 항공우주국(NASA)이 제공하는 약 한 달 동안의 화재 정보를 이용하여 제작한 3D 이미지
  • 이미 진화된 곳까지 이미지에 모두 포함
  • 이미지 렌더링을 위해 산불의 규모가 조금 과장
  • 따라서 이 시각화가 공유되었을 시점의 화재 현황에 비해, 과장된 정보가 지도에 표현된 것
  • 시각화는 직관적으로 이해되기 때문에 그 자체로 영향력이 클 수 있으니 어떠한 배경에서 어떤 데이터를 이용해 만들었는지 살펴볼 필요가 있다 

주요 포인트

  • 시각화는 부정확한 정보를 전달하기도 하고, 오해를 불러일으키기도 한다.
  • 문제점이 왜 일어나는지 이해하고, 데이터 시각화를 정확하게 판단하는 눈을 길러야 한다.

핵심 개념

  • Y축 축소: 그래프의 Y축을 조작하여 데이터의 차이를 과장하거나 축소할 수 있습니다. 예를 들어, Y축의 시작점을 0이 아닌 다른 값으로 설정하면 작은 변화도 크게 보일 수 있습니다
  • 체리 피킹: 특정 데이터 포인트나 기간만 선택하여 보여줌으로써 원하는 결론을 뒷받침하는 것처럼 보이게 할 수 있습니다. 이는 전체적인 맥락을 무시하고 편향된 정보를 제공할 수 있습니다
  • 3D 그래프 사용: 3D 그래프는 시각적으로 매력적일 수 있지만, 데이터의 비율을 왜곡하여 잘못된 인상을 줄 수 있습니다. 2D 그래프가 더 명확하고 정확한 정보를 제공하는 경우가 많습니다
  • 잘못되 차트 유형 사용: 파이 차트는 전체의 부분을 나타내는데 적합하지만, 여러 응답이 가능한 설문조사 결과를 보여줄 때는 부적절합니다. 이 경우 바 차트가 더 적합할 수 있습니다
  • 색상 대비 과장: 색상 대비를 과도하게 사용하여 데이터 간의 차이를 실제보다 더 크게 보이게 할 수 있습니다. 이는 특히 히트맵과 같은 시각화에서 흔히 발생합니다